Comment décomposer la variance due à la non-réponse : une méthode fondée sur l’erreur d’enquête totale
Section 2. Cadre d’inférence

Table des matières

Supposons qu’un échantillon $s$ de taille $n$ est tiré d’une population $U$ de taille $N .$ Soit le total de la population définit par

$t_{d} = \sum_{k \in U} d_{k} y_{k} (2.1)$

pour une variable, $y,$ et un indicateur de domaine, $d_{k},$ qui prend la valeur $d_{k} = 1$ si l’unité $k$ appartient au domaine $d,$ et $d_{k} = 0$ sinon. En cas de réponse complète, $t_{d}$ est estimé par ${\hat{t}}_{d}^{0} = \sum_{k \in s} d_{k} w_{k} y_{k}$ où $w_{k}$ pourrait être le poids d’échantillonnage ou un poids calé si un calage est effectué. Étant donné que les enquêtes sont généralement sujettes à la non-réponse, pour les unités comme pour les items, une unité d’échantillonnage est classée comme unité répondante ou unité non répondante en ce qui concerne la variable $y$ à tout moment de la collecte des données. Le sous-ensemble $s_{r}$ contient des unités répondant à la variable $y,$ tandis que $s_{m}$ contient les unités non répondantes pour cette variable. Notez que $s_{r}$ et $s_{m},$ respectivement de taille $n_{r}$ et $n_{m},$ forment une partition de l’échantillon $s,$ $P_{s} = {s_{r}, s_{m}},$ avec $s_{r} \cup s_{m} = s$ et $s_{r} \cap s_{m} = \emptyset .$

La méthode proposée dans l’article suppose que l’imputation est utilisée en cas de non-réponse, ce qui est couramment le cas dans les enquêtes auprès des entreprises. De plus, on peut envisager cette technique pour la non-réponse partielle ou totale tant que l’imputation est utilisée. Toutefois, comme une seule variable d’intérêt $y$ est prise en compte ici à des fins de simplicité, aucune distinction n’est faite suivant que la variable $y$ est imputée en raison de la non-réponse totale ou partielle. De plus, les ensembles $s_{r}$ et $s_{m}$ ne sont pas indexés par un numéro d’item pour des questions de simplicité sans perte de généralité. Cependant, l’action qui suit le calcul d’un score d’unité peut être différente suivant que l’unité soit répondante ou non-répondante.

2.1 Estimation par imputation

Le cadre nécessite des méthodes d’imputation linéaire. En d’autres termes, la valeur imputée, $y_{k}^{*},$ peut être exprimée comme une combinaison linéaire des valeurs déclarées par les autres unités. Cette combinaison linéaire est donnée par $y_{k}^{*} = φ_{0 k} + \sum_{l \in s_{r}} φ_{l k} y_{l} .$ Les quantités, $φ_{0 k}$ et $φ_{l k}$ ne dépendent pas des valeurs de la variable d’intérêt, $y,$ mais elles peuvent dépendre de $s,$ $s_{r}$ et des données auxiliaires des non-répondants disponibles dans la base de sondage, les registres ou ailleurs. Les méthodes d’imputation linéaire recouvrent la plupart des méthodes utilisées en pratique, comme l’imputation des valeurs auxiliaires (Beaumont, Haziza et Bocci, 2011) et l’imputation par régression linéaire, ainsi que l’imputation par donneur, souvent utilisée pour imputer les variables catégoriques.

Il est courant d’utiliser une imputation composite, qui consiste à appliquer plusieurs méthodes d’imputation de façon séquentielle à une même variable. Il est possible d’utiliser plus d’une méthode d’imputation linéaire pour imputer les unités non répondantes. La section 2 de Beaumont et Bissonnette (2011) définit en détail l’imputation composite. En bref, supposons que l’ensemble de non-répondants est divisé en deux groupes ou plus et qu’une méthode d’imputation différente est utilisée dans chaque groupe. Par exemple, supposons que $x_{k}$ soit le vecteur complet des variables auxiliaires pour l’unité $k,$ et qu’on utilise l’imputation par régression pour imputer la variable d’intérêt. Cependant, si, dans certains cas, $x_{k}$ était incomplet, une autre méthode d’imputation, fondée sur le sous-ensemble disponible de $x_{k},$ serait utilisée. On peut généraliser la méthode présentée dans le présent article pour y inclure l’imputation composite tant que des méthodes d’imputation linéaire sont utilisées. Pour simplifier la notation, on présente le cas d’une seule méthode d’imputation linéaire.

L’estimateur du total du domaine après l’imputation est donné par

${\hat{t}}_{d} = \sum_{l \in s_{r}} w_{l} d_{l} y_{l} + \sum_{k \in s_{m}} w_{k} d_{k} y_{k}^{*} (2.2)$

où $w_{k}$ est le poids d’échantillonnage ou un poids calé. L’estimateur présenté dans l’équation (2.2) peut être réécrite ainsi

$\begin{array}{l} {\hat{t}}_{d} & = \sum_{l \in s_{r}} w_{l} d_{l} y_{l} + \sum_{k \in s_{m}} w_{k} d_{k} y_{k}^{*} \\ = \sum_{l \in s_{r}} w_{l} d_{l} y_{l} + \sum_{k \in s_{m}} w_{k} d_{k} (φ_{0 k} + \sum_{l \in s_{r}} φ_{l k} y_{l}) \\ = \sum_{l \in s_{r}} w_{l} d_{l} y_{l} + \sum_{k \in s_{m}} w_{k} d_{k} φ_{0 k} + \sum_{l \in s_{r}} y_{l} \sum_{k \in s_{m}} w_{k} d_{k} φ_{l k} \\ = W_{0 d} + \sum_{l \in s_{r}} w_{l} d_{l} y_{l} + \sum_{l \in s_{r}} y_{l} W_{d l} \\ = W_{0 d} + \sum_{l \in s_{r}} y_{l} (w_{l} d_{l} + W_{d l}) . \end{array}$

Les quantités $W_{d l}$ et $W_{0 d}$ désignent les facteurs de pondération compensatoire (ou poids d’ajustement) définis comme suit :

$\begin{array}{l} W_{d l} & = \sum_{k \in s_{m}} w_{k} d_{k} φ_{l k} \\ W_{0 d} & = \sum_{k \in s_{m}} w_{k} d_{k} φ_{0 k} . \end{array}$

Elles représentent l’effet de la non-réponse dans le domaine, $d,$ porté par l’unité du répondant, $l \in s_{r},$ avec une valeur déclarée, $y_{l} .$

2.2 Estimation de la variance

Soit un modèle d’imputation, $η,$ décrivant la relation entre la variable $y$ et le vecteur des variables auxiliaires observées $x^{obs} .$ Soit $E_{η} (.),$ ${Var}_{η} (.)$ et ${cov}_{η} (.)$ qui désignent respectivement l’espérance, la variance et la covariance par rapport au modèle d’imputation $η .$ Le modèle d’imputation est :

$\begin{array}{l} E_{η} (y_{k} | X^{obs}) & = μ_{k} \\ V_{η} (y_{k} | X^{obs}) & = σ_{k}^{2} \\ {cov}_{η} (y_{k}, y_{k^{'}} | X^{obs}) & = 0 \end{array}$

où $k, k^{'} \in U$ et $k \neq k^{'} .$ La matrice $X^{obs}$ contient tous les vecteurs observés $x^{obs} .$ Les quantités $μ_{k}$ et $σ_{k}^{2}$ peuvent être estimées par ${\hat{μ}}_{k}$ et ${\hat{σ}}_{k}^{2}$ respectivement. Nous supposons que ces estimateurs sont sans biais par rapport au modèle d’imputation $η .$ Ces estimateurs seront utiles plus tard pour l’estimation des composantes de la variance totale et les décompositions des composantes au niveau des unités.

On peut exprimer l’erreur totale de l’estimateur (2.2) comme suit :

${\hat{t}}_{d} - t_{d} = ({\hat{t}}_{d}^{0} - t_{d}) + ({\hat{t}}_{d} - {\hat{t}}_{d}^{0}), (2.3)$

où ${\hat{t}}_{d}^{0}$ est l’estimateur en présence de réponse complète donnée par (2.1). Habituellement, on appelle le premier terme de la partie droite de l’égalité (2.3) erreur d’échantillonnage et le deuxième terme erreur de non-réponse. Comme le proposent Särndal (1992) et Beaumont et Bissonnette (2011), l’erreur quadratique moyenne de ${\hat{t}}_{d}$ en utilisant (2.3) peut être décomposée en trois composantes et est obtenue au moyen de

$\begin{array}{l} E_{η p q} {({\hat{t}}_{d} - t_{d})}^{2} & = E_{η} V_{p} ({\hat{t}}_{d}) + E_{p q} E_{η} [{({\hat{t}}_{d} - {\hat{t}}_{d}^{0})}^{2} | s, s_{r}] \\ + 2 E_{p q} E_{η} [({\hat{t}}_{d} - {\hat{t}}_{d}^{0}) ({\hat{t}}_{d}^{0} - t_{d}) | s, s_{r}], (2.4) \end{array}$

avec le modèle d’imputation, $η,$ le plan d’échantillonnage, $p,$ et le mécanisme de réponse, $q .$ $E_{η p q} {({\hat{t}}_{d} - t_{d})}^{2}$ équivaut approximativement à la variance $V_{η p q} ({\hat{t}}_{d} - t_{d})$ en supposant que le biais global est négligeable. Ainsi, l’équation (2.4) équivaut à $V_{η p q} ({\hat{t}}_{d} - t_{d}) \equiv V_{TOT} ({\hat{t}}_{d}) = V_{SAM} ({\hat{t}}_{d}) + V_{NR} ({\hat{t}}_{d}) + V_{MIX} ({\hat{t}}_{d}),$ où :

$V_{SAM} ({\hat{t}}_{d}) \equiv E_{η} V_{p} ({\hat{t}}_{d})$ est la variance d’échantillonnage;
$V_{NR} ({\hat{t}}_{d}) \equiv E_{p q} E_{η} [{({\hat{t}}_{d} - {\hat{t}}_{d}^{0})}^{2} | s, s_{r}]$ est la variance due à la non-réponse;
$V_{MIX} ({\hat{t}}_{d}) \equiv 2 E_{p q} E_{η} [({\hat{t}}_{d} - {\hat{t}}_{d}^{0}) ({\hat{t}}_{d}^{0} - t_{d}) | s, s_{r}]$ est la covariance entre les termes d’échantillonnage et d’erreur due à la non-réponse, aussi appelée composante de variance mixte.

Beaumont et Bissonnette (2011) proposent les estimateurs suivants pour $V_{SAM} ({\hat{t}}_{d}),$ $V_{NR} ({\hat{t}}_{d})$ et $V_{MIX} ({\hat{t}}_{d}) .$

V ^ SAM ( t ^ d ) = V ^ ORD ( t ^ d ) + V ^ DIF ( t ^ d ) MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9vqpe0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGabmOvayaaja WaaSbaaSqaaiaabofacaqGbbGaaeytaaqabaGcdaqadaqaaiqadsha gaqcamaaBaaaleaacaWGKbaabeaaaOGaayjkaiaawMcaaiabg2da9i qadAfagaqcamaaBaaaleaacaqGpbGaaeOuaiaabseaaeqaaOWaaeWa aeaaceWG0bGbaKaadaWgaaWcbaGaamizaaqabaaakiaawIcacaGLPa aacqGHRaWkceWGwbGbaKaadaWgaaWcbaGaaeiraiaabMeacaqGgbaa beaakmaabmaabaGabmiDayaajaWaaSbaaSqaaiaadsgaaeqaaaGcca GLOaGaayzkaaaaaa@4D38@ où :
- ${\hat{V}}_{ORD} ({\hat{t}}_{d})$ est l’estimateur naïf de la variance d’échantillonnage qui utilise les valeurs imputées comme s’il s’agissait de valeurs déclarées.
- ${\hat{V}}_{DIF} ({\hat{t}}_{d}) = \sum_{k \in s_{m}} (1 - π_{k}) w_{k}^{2} d_{k} {\hat{σ}}_{k}^{2}$ est une correction à ${\hat{V}}_{ORD} ({\hat{t}}_{d})$ afin de réduire le biais de ${\hat{V}}_{ORD} ({\hat{t}}_{d}),$ comme le proposent Beaumont et Bocci (2009), puisque la composante de variance ${\hat{V}}_{ORD} ({\hat{t}}_{d})$ repose sur l’utilisation de valeurs imputées, généralement plus homogènes que les valeurs déclarées.
${\hat{V}}_{NR} ({\hat{t}}_{d}) = \sum_{l \in s_{r}} W_{d l}^{2} {\hat{σ}}_{l}^{2} + \sum_{k \in s_{m}} w_{k}^{2} d_{k} {\hat{σ}}_{k}^{2}$ est l’estimateur de la composante de non-réponse de la variance.
${\hat{V}}_{MIX} ({\hat{t}}_{d}) = 2 \sum_{l \in s_{r}} W_{d l} (w_{l} - 1) d_{l} {\hat{σ}}_{l}^{2} - 2 \sum_{k \in s_{m}} w_{k} (w_{k} - 1) d_{k} {\hat{σ}}_{k}^{2}$ est l’estimateur de la composante de variance mixte.

En présence de réponse complète, $s_{m} = \emptyset,$ les facteurs de pondération compensatoires sont $W_{d l} = 0,$ et les composantes de la variance, ${\hat{V}}_{DIF} ({\hat{t}}_{d}),$ ${\hat{V}}_{NR} ({\hat{t}}_{d}),$ et ${\hat{V}}_{MIX} ({\hat{t}}_{d}),$ sont également égaux à 0, ce qui donne une variance totale de ${\hat{V}}_{TOT} ({\hat{t}}_{d}) = {\hat{V}}_{ORD} ({\hat{t}}_{d}) .$ Dans un recensement, $s = U,$ les composantes de la variance, ${\hat{V}}_{DIF} ({\hat{t}}_{d}),$ ${\hat{V}}_{ORD} ({\hat{t}}_{d}),$ et ${\hat{V}}_{MIX} ({\hat{t}}_{d}),$ sont égales à 0, ce qui donne une variance totale de ${\hat{V}}_{TOT} ({\hat{t}}_{d}) = {\hat{V}}_{NR} ({\hat{t}}_{d}) .$

2.3 Biais de non-réponse

Dans tous les cas, la réduction du biais de non-réponse est souhaitable. On peut y parvenir au moyen d’un plan adaptatif ou d’une méthode appropriée de traitement des valeurs manquantes. Notre cadre suppose que le biais de non-réponse est éliminé par des méthodes d’imputation utilisant l’information auxiliaire pertinente. En pratique, il est probable que l’imputation réduise le biais de non-réponse, mais ne l’élimine pas. Nous pourrions alors nous interroger sur la possibilité d’utiliser des plans adaptatifs pour réduire davantage le biais. Dans le contexte de la pondération de la non-réponse, Beaumont, Bocci et Haziza (2014) soutiennent que l’information auxiliaire utilisée dans un plan adaptatif pour la réduction du biais attribuable à la non-réponse peut aussi servir à la pondération de la non-réponse pour réduire d’autant le biais. On peut aussi avancer leur argument dans le contexte de l’imputation. Il justifie que nous mettions l’accent sur la réduction de la variance plutôt que sur la réduction du biais. Nous savons qu’un biais pourrait demeurer après l’imputation, mais nous l’ignorerons parce qu’il ne sera peut-être pas possible de le réduire davantage au moyen d’un plan adaptatif sans information auxiliaire supplémentaire. Il est en revanche possible de réduire la variance au moyen d’un plan adaptatif.

ISSN : 1712-5685

Politique de rédaction

Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.

Présentation de textes pour la revue

Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).

Note de reconnaissance

Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.

Normes de service à la clientèle

Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.

Droit d'auteur

Publication autorisée par le ministre responsable de Statistique Canada.

L'utilisation de la présente publication est assujettie aux modalités de l'Entente de licence ouverte de Statistique Canada.

N° 12-001-X au catalogue

Périodicité : semi-annuel

Ottawa

Date de modification :: 2018-12-20

Sélection de la langue

Recherche et menus

Recherche

Comment décomposer la variance due à la non-réponse : une méthode fondée sur l’erreur d’enquête totale
Section 2. Cadre d’inférence

2.1 Estimation par imputation

2.2 Estimation de la variance

2.3 Biais de non-réponse

Comment décomposer la variance due à la non-réponse : une méthode fondée sur l’erreur d’enquête totale Section 2. Cadre d’inférence

2.1 Estimation par imputation

2.2 Estimation de la variance

2.3 Biais de non-réponse

Politique de rédaction

Présentation de textes pour la revue

Note de reconnaissance

Normes de service à la clientèle

Droit d'auteur

Comment décomposer la variance due à la non-réponse : une méthode fondée sur l’erreur d’enquête totale
Section 2. Cadre d’inférence