Ajustements pour la non-réponse dans les plans stratifiés assortis de modèles aux spécifications erronées 1. Introduction

L’ajustement des poids de base au moyen de classes de pondération pour tenir compte de la non-réponse totale est une méthode couramment employée pour pondérer les données d’enquête, mais les chercheurs et les organismes d’enquête ne font pas tous ces ajustements de la même manière. Little et Vartivarian (2003), ci-après désignés « L et V », constatent que le recours à un facteur d’ajustement pour la non-réponse pondéré en fonction de l’inverse de la probabilité de sélection semble être l’approche la plus courante. Ils soulignent aussi que le fait d’utiliser des poids de sondage pour calculer un ajustement pondéré pour la non-réponse n’élimine pas le biais de non-réponse dans les estimations de la moyenne de population lorsque le mécanisme de réponse n’est pas précisé correctement dans le modèle d’ajustement de la pondération. L et V ont donc réalisé une étude par simulation à l’aide d’un plan d’échantillonnage simple stratifié afin d’examiner l’effet de la pondération des facteurs d’ajustement pour la non-réponse. Ils ont conclu que la pondération de l’ajustement pour la non-réponse est peu utile, voire inutile.

Afin d’éliminer le biais de non-réponse, les justifications théoriques pour l’ajustement pour la non-réponse exigent une modélisation exacte soit du mécanisme de réponse, soit de la variable cible; nous ne connaissons aucune théorie stipulant que la pondération selon l’inverse de la probabilité de sélection élimine complètement le biais lorsque les spécifications du modèle sont erronées (par exemple Kalton 1983; Little 1986; Little et Rubin 2002; Särndal et Lundström 2005). C’est pourquoi l’intégration dans la modélisation de l’ajustement pour la non-réponse que préconisent L et V est essentielle à une bonne pratique statistique. Toutefois, la spécification exacte d’un modèle hautement prédictif est un objectif qu’il n’est pas possible d’atteindre dans la plupart des enquêtes à cause de la complexité du phénomène et du fait qu’il existe rarement des variables auxiliaires suffisamment puissantes. Les recherches visant à trouver de meilleures données auxiliaires pour cette modélisation ont mené à l’exploration des paradonnées, mais les modèles qui font appel à ces données sont toujours associés à de faibles corrélations avec la propension à répondre (Kreuter, Olson, Wagner, Yan, Ezzati-Rice, Casas-Cordero, Lemay, Peytchev, Groves et Raghunathan 2010). Dans la pratique, on a recours à des modèles imparfaits et le biais de non-réponse n’est jamais complètement éliminé.

En conséquence, il importe de comprendre les effets des méthodes d’ajustement pour la non-réponse et de déterminer s’il est utile de pondérer l’ajustement pour la non-réponse lorsque les spécifications du modèle de réponse sont erronées. Bien que L et V insistent entre autres sur la nécessité d’inclure les variables de plan dans la modélisation de la non-réponse, certains chercheurs semblent avoir conclu que la pondération de l’ajustement est inutile (par exemple Chadborn, Baster, Delpech, Sabin, Sinka, Rice et Evans 2005; Haukoos et Newgard 2007). Cependant, la conclusion de L et V, selon laquelle la pondération du facteur d’ajustement pour la non-réponse est incorrecte ou inefficace, est fondée sur des comparaisons avec des modèles correctement spécifiés qui produisent toujours des estimations non biaisées. Leur suggestion de conditionner le modèle sur les variables de plan (dans le scénario de L et V, la variable de plan correspondait à la strate) a donné lieu à des estimateurs avec et sans pondération identiques. Leurs simulations étaient aussi axées sur un plan d’échantillonnage stratifié spécifique et ils n’ont tenu compte que de l’estimation des moyennes. Comme il est expliqué plus loin, ces limitations sont considérables et il convient de revoir les conclusions de certains quant à l’inutilité de pondérer l’ajustement.

Après L et V, des chercheurs ont examiné les effets de la pondération dans d’autres cas. Sukasih, Jang, Vartivarian, Cohen et Zhang (2009) ont comparé les ajustements pour la non-réponse avec et sans pondération à l’aide de simulations dans le contexte d’une enquête particulière. West (2009) a utilisé une simulation pour étudier les estimations des moyennes de population en vertu de plans d’échantillonnage plus complexes comprenant des grappes et des taux d’échantillonnage différentiels. Ces deux études ont conclu que la pondération des ajustements pour la non-réponse à l’aide des poids de sondage était utile comparativement à une approche de non-pondération, même si les différences obtenues après pondération n’étaient pas importantes. Après avoir évalué la robustesse des ajustements sur le plan théorique et décrit les conditions en vertu desquelles les divers estimateurs des moyennes de population étaient le moins influencés par le biais de non-réponse, Kott (2012) recommande une approche de pondération. D’autres recherches ont été menées sur la nécessité de pondérer pour estimer les coefficients des modèles de la propension à répondre (Wun, Ezzati-Rice, Diaz-Tena et Greenblatt 2007; Grau, Potter, Williams et Diaz-Tena 2006), mais cette piste de recherche est assez éloignée de la nôtre et nous ne l’abordons pas ici.

Dans le présent article, nous explorons l’effet de la pondération des ajustements pour la non-réponse lorsque le modèle de non-réponse est imparfait. Dans la section 2, nous prenons les résultats de L et V comme point de départ, pour aller plus loin et examiner les estimateurs pour les totaux et pour les moyennes et totaux de domaine; L et V n’ont tenu compte que des moyennes globales. À l’aide de la même population et du même scénario de simulation de base que L et V, nous examinons aussi l’effet de différentes répartitions de l’échantillon dans les strates, tandis que L et V n’ont utilisé qu’une seule répartition de l’échantillon. Les résultats des simulations présentés à la section 3 révèlent des différences importantes des propriétés des estimateurs avec et sans pondération, qui varient selon la répartition de l’échantillon. Nous expliquons les comportements des estimateurs à l’aide d’approximations simples afin d’illustrer pourquoi ils sont différents. Bien que la pondération des facteurs d’ajustement ne donne pas toujours des estimations assorties d’un biais et d’une racine de l’erreur quadratique moyenne (reqm) plus faibles que ceux des estimations obtenues sans pondération, elle présente des avantages substantiels pour les estimations des totaux et fournit une protection contre les erreurs importantes qui pourraient découler d’une approche sans pondération. En conséquence, nous recommandons de pondérer lorsque le véritable mécanisme de réponse n’est pas entièrement connu. La section 4 donne les conclusions.

Date de modification :