Comment décomposer la variance due à la non-réponse : une méthode fondée sur l’erreur d’enquête totale
Section 2. Cadre d’inférence
Supposons qu’un échantillon
de taille
est tiré d’une population
de taille
Soit le total de la population définit
par
pour une variable,
et un indicateur de domaine,
qui prend la valeur
si l’unité
appartient au domaine
et
sinon. En cas de réponse
complète,
est estimé par
où
pourrait être le poids d’échantillonnage
ou un poids calé si un calage est effectué. Étant donné que les enquêtes sont
généralement sujettes à la non-réponse, pour les unités comme pour les items,
une unité d’échantillonnage est classée comme unité répondante ou unité non
répondante en ce qui concerne la variable
à tout moment de la collecte des
données. Le sous-ensemble
contient des unités répondant à la
variable
tandis que
contient les unités non répondantes
pour cette variable. Notez que
et
respectivement de taille
et
forment une partition de l’échantillon
avec
et
La méthode proposée dans l’article suppose
que l’imputation est utilisée en cas de non-réponse, ce qui est couramment le
cas dans les enquêtes auprès des entreprises. De plus, on peut envisager cette
technique pour la non-réponse partielle ou totale tant que l’imputation est
utilisée. Toutefois, comme une seule variable d’intérêt
est prise en compte ici à des
fins de simplicité, aucune distinction n’est faite suivant que la variable
est imputée en raison de la
non-réponse totale ou partielle. De plus, les ensembles
et
ne sont pas indexés par un
numéro d’item pour des questions de simplicité sans perte de généralité.
Cependant, l’action qui suit le calcul d’un score d’unité peut être différente
suivant que l’unité soit répondante ou non-répondante.
2.1 Estimation par imputation
Le cadre nécessite des méthodes d’imputation
linéaire. En d’autres termes, la valeur imputée,
peut être exprimée comme une
combinaison linéaire des valeurs déclarées par les autres unités. Cette combinaison
linéaire est donnée par
Les quantités,
et
ne dépendent pas des valeurs de
la variable d’intérêt,
mais elles peuvent dépendre de
et des données auxiliaires des
non-répondants disponibles dans la base de sondage, les registres ou ailleurs.
Les méthodes d’imputation linéaire recouvrent la plupart des méthodes utilisées
en pratique, comme l’imputation des valeurs auxiliaires (Beaumont, Haziza et
Bocci, 2011) et l’imputation par régression linéaire, ainsi que l’imputation
par donneur, souvent utilisée pour imputer les variables catégoriques.
Il est courant d’utiliser une imputation composite, qui consiste à
appliquer plusieurs méthodes d’imputation de façon séquentielle à une même
variable. Il est possible d’utiliser plus d’une méthode d’imputation linéaire
pour imputer les unités non répondantes. La section 2 de Beaumont et
Bissonnette (2011) définit en détail l’imputation composite. En bref, supposons
que l’ensemble de non-répondants est divisé en deux groupes ou plus et qu’une
méthode d’imputation différente est utilisée dans chaque groupe. Par exemple,
supposons que
soit le vecteur complet des
variables auxiliaires pour l’unité
et qu’on utilise l’imputation
par régression pour imputer la variable d’intérêt. Cependant, si, dans certains
cas,
était incomplet, une autre
méthode d’imputation, fondée sur le sous-ensemble disponible de
serait utilisée. On peut
généraliser la méthode présentée dans le présent article pour y inclure l’imputation
composite tant que des méthodes d’imputation linéaire sont utilisées. Pour
simplifier la notation, on présente le cas d’une seule méthode d’imputation
linéaire.
L’estimateur du total du domaine après l’imputation
est donné par
où
est le poids d’échantillonnage
ou un poids calé. L’estimateur présenté dans l’équation (2.2) peut être réécrite
ainsi
Les quantités
et
désignent les facteurs de
pondération compensatoire (ou poids d’ajustement) définis comme suit :
Elles représentent l’effet de la
non-réponse dans le domaine,
porté par l’unité du répondant,
avec une valeur déclarée,
2.2 Estimation
de la variance
Soit un modèle d’imputation,
décrivant la relation entre la
variable
et le vecteur des variables
auxiliaires observées
Soit
et
qui désignent respectivement l’espérance,
la variance et la covariance par rapport au modèle d’imputation
Le modèle d’imputation
est :
où
et
La matrice
contient tous les vecteurs
observés
Les quantités
et
peuvent être estimées par
et
respectivement. Nous supposons
que ces estimateurs sont sans biais par rapport au modèle d’imputation
Ces estimateurs seront utiles
plus tard pour l’estimation des composantes de la variance totale et les
décompositions des composantes au niveau des unités.
On peut exprimer l’erreur totale de l’estimateur
(2.2) comme suit :
où
est l’estimateur en présence de réponse
complète donnée par (2.1). Habituellement, on appelle le premier terme de la
partie droite de l’égalité (2.3) erreur d’échantillonnage et le deuxième terme
erreur de non-réponse. Comme le proposent Särndal (1992) et Beaumont et
Bissonnette (2011), l’erreur quadratique moyenne de
en utilisant (2.3) peut être
décomposée en trois composantes et est obtenue au moyen de
avec le modèle d’imputation,
le plan d’échantillonnage,
et le mécanisme de réponse,
équivaut approximativement à la variance
en supposant que le biais global est
négligeable. Ainsi, l’équation (2.4) équivaut à
où :
-
est la variance
d’échantillonnage;
-
est la variance due à la non-réponse;
-
est la covariance entre les
termes d’échantillonnage et d’erreur due à la non-réponse, aussi appelée
composante de variance mixte.
Beaumont et Bissonnette (2011) proposent les estimateurs suivants pour
et
-
où :
-
est l’estimateur naïf de la
variance d’échantillonnage qui utilise les valeurs imputées comme s’il s’agissait
de valeurs déclarées.
-
est une correction à
afin de réduire le biais de
comme le proposent Beaumont et Bocci (2009),
puisque la composante de variance
repose sur l’utilisation de valeurs imputées,
généralement plus homogènes que les valeurs déclarées.
-
est l’estimateur de la
composante de non-réponse de la variance.
-
est l’estimateur de la
composante de variance mixte.
En présence de réponse complète,
les facteurs de pondération
compensatoires sont
et les composantes de la
variance,
et
sont également égaux à 0, ce qui
donne une variance totale de
Dans un recensement,
les composantes de la variance,
et
sont égales à 0, ce qui donne
une variance totale de
2.3 Biais de non-réponse
Dans tous les cas, la réduction du biais de non-réponse est
souhaitable. On peut y parvenir au moyen d’un plan adaptatif ou d’une méthode
appropriée de traitement des valeurs manquantes. Notre cadre suppose que le
biais de non-réponse est éliminé par des méthodes d’imputation utilisant l’information
auxiliaire pertinente. En pratique, il est probable que l’imputation réduise le
biais de non-réponse, mais ne l’élimine pas. Nous pourrions alors nous
interroger sur la possibilité d’utiliser des plans adaptatifs pour réduire
davantage le biais. Dans le contexte de la pondération de la non-réponse,
Beaumont, Bocci et Haziza (2014) soutiennent que l’information auxiliaire
utilisée dans un plan adaptatif pour la réduction du biais attribuable à la
non-réponse peut aussi servir à la pondération de la non-réponse pour réduire d’autant
le biais. On peut aussi avancer leur argument dans le contexte de l’imputation.
Il justifie que nous mettions l’accent sur la réduction de la variance plutôt
que sur la réduction du biais. Nous savons qu’un biais pourrait demeurer après
l’imputation, mais nous l’ignorerons parce qu’il ne sera peut-être pas possible
de le réduire davantage au moyen d’un plan adaptatif sans information
auxiliaire supplémentaire. Il est en revanche possible de réduire la variance
au moyen d’un plan adaptatif.
ISSN : 1712-5685
Politique de rédaction
Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.
Présentation de textes pour la revue
Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).
Note de reconnaissance
Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.
Normes de service à la clientèle
Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.
Droit d'auteur
Publication autorisée par le ministre responsable de Statistique Canada.
© Sa Majesté la Reine du chef du Canada, représentée par le ministre de l’Industrie 2018
L'utilisation de la présente publication est assujettie aux modalités de l'Entente de licence ouverte de Statistique Canada.
N° 12-001-X au catalogue
Périodicité : semi-annuel
Ottawa