Est-ce que la réduction du déséquilibre de la réponse accroît l’exactitude des estimations de l’enquête ? Section 1. Introduction

Le problème de l’estimation exacte en dépit d’une non-réponse importante doit être examiné sous deux angles temporellement dépendants, à savoir d’abord les moyens de gérer la collecte des données, puis les moyens de traiter l’estimation à partir des données finalement recueillies. La première activité peut nécessiter d’importantes ressources. Dans une enquête téléphonique, la planification quotidienne des tentatives de prise de contact, l’interaction avec les intervieweurs et les éléments à prendre en considération pour établir leur charge de travail peuvent demander de coûteux efforts. L’étape de l’estimation est administrativement plus simple; elle comporte la recherche des meilleures variables auxiliaires en vue de procéder à une pondération calée pour corriger la non-réponse, après quoi les estimations sont habituellement calculées en se servant de logiciels existants.

La collecte des données est le point de concentration de la littérature sur les plans de collecte dynamique (responsive designs); Groves (2006), Groves et Heeringa (2006) ont été parmi les premiers à proposer ces plans. Les plans de collecte adaptatifs (adaptive survey designs) sont discutés dans Wagner (2008). L’une des idées qui sous-tend cette approche de recherche est qu’une collecte des données qui s’étend sur une certaine période pourrait être inspectée à des points de décision appropriés, où des mesures peuvent être prises pour obtenir en fin de compte un ensemble bien équilibré de répondants. Schouten, Calinescu et Luiten (2013) expliquent comment les plans de collecte adaptatifs peuvent être taillés sur mesure en vue d’optimiser les taux de réponse et de réduire la sélectivité de la non-réponse, en tenant compte des aspects liés au coût. De nombreux travaux exploratoires ont porté sur les plans de collecte dynamiques (ou adaptatifs). La recherche d’une réponse bien équilibrée ou représentative peut être un objectif en soi. Différentes pistes ont été explorées, à savoir le classement des cas par ordre de priorité, (Peytchev, Riley, Rosen, Murphy et Lindblad 2010); les règles d’arrêt pour mettre fin aux tentatives de collecte des données pour des unités particulières de l’échantillon, (Rao, Glickman et Glynn 2008; Wagner et Raghunathan 2010); l’utilisation de paradonnées de manière plus générale pour gérer la réponse à l’enquête, (Couper et Wagner 2011).

La mesure et le contrôle du déséquilibre font partie de la phase de collecte des données. La statistique de déséquilibre (voir la section 3) joue un rôle central dans le présent article; elle a été utilisée par exemple dans Särndal (2011), Lundquist et Särndal (2013), Särndal et Lundquist (2014a, 2014b). Elle est reliée à l’indicateur R MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpepC0xd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpm0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamOuaaaa@34EE@ (R pour représentativité); voir Schouten, Cobben et Bethlehem (2009), et Bethlehem, Cobben et Schouten (2011).

La seconde étape s’appuie sur la théorie de l’estimation pour résoudre la difficulté que pose la non-réponse, principalement la façon d’obtenir un faible biais dans les estimations. Considérée strictement comme un problème d’estimation, il s’agit d’une activité en soi, après l’achèvement de la collecte des données. L’ensemble des unités répondantes est fixé; la quantité des données sur ces unités est « gelée ». Le choix des variables auxiliaires joue un rôle crucial. Les « meilleures » doivent être sélectionnées. Cet aspect a été traité en profondeur, notamment dans Särndal et Lundström (2005). Deux facteurs sont habituellement mentionnés comme étant importants pour l’exactitude des estimations, à savoir la mesure dans laquelle les variables auxiliaires choisies peuvent expliquer la variable étudiée et la mesure dans laquelle ces variables peuvent expliquer l’indicateur de réponse 0/1 montrant la présence ou l’absence d’une unité dans le jeu de répondants. Ces deux degrés d’explication sont l’un et l’autre partiels au mieux, imparfaits. Les deux rôles des variables auxiliaires interagissent, comme le soulignent par exemple Little et Vartivarian (2005). Une revue détaillée des procédures d’ajustement de la pondération pour corriger la non-réponse est donnée dans Brick (2013).

La disponibilité des variables auxiliaires dépend de l’environnement de l’enquête. En Scandinavie, les enquêtes auprès des particuliers et des ménages peuvent s’appuyer sur les vastes sources de variables auxiliaires que sont les registres administratifs. Et il en est de plus en plus souvent ainsi dans d’autres pays.

D’aucuns pensent que l’estimation est vraiment l’étape importante : toute mesure qui peut être prise à l’étape de la collecte des données, comme l’équilibrage ou l’amélioration de la représentativité, est peut-être superflue; obtenir les estimations les plus exactes possibles est un problème qui peut être traité efficacement à l’étape de l’estimation, grâce à l’usage judicieux des variables auxiliaires dans un processus de pondération pour corriger la non-réponse ou par d’autres moyens. Ce point de vue est défendu, par exemple, dans Beaumont, Bocci et Haziza (2014).

Néanmoins, il est clair que les aspects mesurables de la collecte des données influenceront l’exactitude des estimations qui sont produites en dernière analyse. L’une de ces mesures est la statistique de déséquilibre définie à la section 3. Dans le présent article, les deux activités temporellement dépendantes sont prises en compte. L’équilibrage de la réponse doit être combiné à des méthodes d’estimation efficaces afin d’obtenir en fin de compte les estimations les meilleures (les plus exactes) possibles. Cette façon de penser sous-tend, par exemple, les travaux de Schouten, Cobben, Lundquist et Wagner (2014).

Les considérations qui motivent le présent article sont les suivantes : il existe des méthodes s’appliquant à diverses lignes de conduite  MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqaqpepC0xbbL8F4rqqqpepeea0xe9Lqpe0x e9q8qqvqFr0dXdHiVc=bYP0xH8peuj0lXxdrpe0=1qpeeaY=rrVue9 Fve9Fve8meaabaqaciGacaGabeqabaWaaeaaeaaakeaaieaajugyba baaaaaaaaapeGaa83eGaaa@38B6@ règles d’arrêt, classement des cas par ordre de priorité, et d’autres  MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqaqpepC0xbbL8F4rqqqpepeea0xe9Lqpe0x e9q8qqvqFr0dXdHiVc=bYP0xH8peuj0lXxdrpe0=1qpeeaY=rrVue9 Fve9Fve8meaabaqaciGacaGabeqabaWaaeaaeaaakeaaieaajugyba baaaaaaaaapeGaa83eGaaa@38B6@ durant la collecte des données, en vue d’obtenir en fin de compte un ensemble de répondants r MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpepC0xd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpm0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamOCaaaa@350E@ favorable. Särndal et Lundquist (2014a, 2014b) ont utilisé la statistique de déséquilibre I M B MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpepC0xd9Wqpe0dd9 qqaqFeFr0xbbG8FaYPYRWFb9fi0lXxbvc9Ff0dfrpm0dXdHqps0=vr 0=vr0=fdbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamysaiaad2 eacaWGcbaaaa@367E@ (de l’anglais imbalance) donnée à la section 3 comme outil en vue d’arriver à un faible déséquilibre dans l’ensemble de répondants final. Vu que des variables auxiliaires seront également utilisées dans l’estimation, dans quelle mesure une meilleure exactitude des estimations découlera-t-elle d’un faible déséquilibre durant la collecte des données qui précède ? Des signes encourageants, par exemple dans Särndal et Lundquist (2014a), indiquent qu’un déséquilibre plus faible donne lieu à une certaine amélioration de l’exactitude, quoique modeste. Ces travaux étant empiriques, dans le présent article nous présentons un soutien mathématique/analytique menant à une conclusion similaire.

La présentation de l’article est la suivante : le contexte de l’enquête est exposé à la section 2 et la statistique de déséquilibre est présentée à la section 3. L’importance de la relation de régression  MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqaqpepC0xbbL8F4rqqqpepeea0xe9Lqpe0x e9q8qqvqFr0dXdHiVc=bYP0xH8peuj0lXxdrpe0=1qpeeaY=rrVue9 Fve9Fve8meaabaqaciGacaGabeqabaWaaeaaeaaakeaaieaajugyba baaaaaaaaapeGaa83eGaaa@38B6@ celle de la variable étudiée sur le vecteur de variables auxiliaires  MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqaqpepC0xbbL8F4rqqqpepeea0xe9Lqpe0x e9q8qqvqFr0dXdHiVc=bYP0xH8peuj0lXxdrpe0=1qpeeaY=rrVue9 Fve9Fve8meaabaqaciGacaGabeqabaWaaeaaeaaakeaaieaajugyba baaaaaaaaapeGaa83eGaaa@38B6@ est décrite à la section 4, et plus particulièrement pour l’estimateur (appelé CAL) obtenu par repondération calée pour corriger la non-réponse, à la section 5. L’écart de l’estimateur CAL par rapport à l’estimateur (sans biais) nécessitant une réponse complète et est analysé à la section 6, à la section 7 et à la section 8, en montrant comment l’écart dépend du déséquilibre. Deux résultats sont présentés concernant les propriétés statistiques (moyenne et variance) de l’écart de CAL. En particulier, il est montré que la variance de cet écart est, approximativement, une fonction linéaire de la statistique de déséquilibre. D’où, l’écart est vraisemblablement plus petit, et les estimations plus exactes, si le déséquilibre peut être réduit durant la collecte des données. Les résultats théoriques sont validés empiriquement à la section 9 en utilisant des données provenant d’une enquête-ménages estonienne. Le logiciel statistique R est utilisé; R Core Team (2014). Une discussion conclut l’article à la section 10. Trois annexes fournissent les preuves et les dérivations nécessaires.

Date de modification :