Comment décomposer la variance due à la non-réponse : une méthode fondée sur l’erreur d’enquête totale
Section 3. Décomposition au niveau de l’unité de l’erreur provenant des composantes de la variance
Cette section décrit la méthode utilisée pour évaluer la contribution d’une
unité non répondante donnée,
à la variance totale estimée
pour l’estimation du total pour une variable donnée.
La décomposition de l’erreur au niveau de l’unité,
de la variance totale pour une
unité donnée,
est définie comme la différence
entre la variance totale estimée et la variance totale projetée, c’est-à-dire
L’exposant
indique les quantités projetées
lorsque l’unité
est convertie en unité répondante.
Donc, on peut considérer
comme le gain attendu, pour ce
qui est de la variance totale, de la conversion d’une unité non répondante
en unité répondante.
Pour obtenir
est déplacée de
à
ce qui génère la nouvelle
partition
de l’échantillon de
où
et
comme l’illustre la
figure 3.1.

Description de la figure 3.1
Figure présentant les
partitions d’échantillon. La partition où et L’unité est déplacée de à ce qui génère la nouvelle partition de l’échantillon de où et
Certaines hypothèses sont nécessaires pour
décomposer les composantes de la variance. On sait que ces hypothèses ne sont
pas nécessairement exactes. Elles peuvent cependant servir à produire de bons
résultats, comme le montre la simulation de la section 4. Les hypothèses
requises sont :
- Valeur déclarée projetée : soit
converti en réponse et soit
- Paramètres d’imputation projetés :
et
- Matrice des relations d’imputation
projetées :
et
si
ou si
ou
sinon. De
même,
si
ou
sinon.
L’hypothèse 1 suppose que si une
unité non répondante,
est convertie en unité
répondante, sa valeur déclarée est égale à sa valeur imputée. Cela n’est pas
vrai de façon générale, mais la valeur imputée est la meilleure estimation que
nous obtenons. Cette valeur imputée devrait se rapprocher suffisamment de la
valeur déclarée pour permettre d’estimer l’erreur sur les composantes de la
variance. Cette hypothèse aura une incidence au moment de la décomposition de
la variance d’échantillonnage.
L’hypothèse 2 suppose que les
paramètres estimés du modèle d’imputation demeurent inchangés si
est répondante. Dans le cas d’un
estimateur convergent de paramètre de modèle d’imputation, cette hypothèse est
plus réaliste lorsque
est plus grand.
Enfin, l’hypothèse 3 signifie que la
relation d’imputation entre les non-répondants et les répondants demeure
inchangée, sauf quand l’unité
est impliquée. En d’autres termes,
l’unité convertie,
n’est plus imputée à partir des
répondants, mais elle ne servira pas à imputer d’autres unités non répondantes.
La figure 3.2 montre comment l’hypothèse 3 est représentée dans la
matrice phi.

Description de la figure 3.2
Figure présentant les
matrices phi des relations d’imputation initiales et projetées. Les colonnes de
la matrice des relations initiales sont les unités incluant l’unité Les lignes sont les unités Les colonnes de la matrice des relations
projetées sont les unités excluant l’unité Les lignes sont les unités incluant l’unité La ligne correspondant à l’unité est une ligne de 0. Les autres valeurs de la
matrice sont les mêmes que celles de la matrice .
Par conséquent, le facteur de pondération
de compensation,
d’une unité répondante,
est projeté comme étant
On retire le poids marginal de l’unité
convertie
du poids initial de
compensation,
pour obtenir le nouveau
Notez que
parce que
dans l’hypothèse 3. Comme mentionné
précédemment, cela signifie que
n’est pas utilisé pour imputer
les non-répondants.
Dans les sous-sections suivantes, la
décomposition de l’erreur au niveau de l’unité pour l’unité
est calculée pour les quatre
composantes de la variance, conformément à ce qui est décrit dans la section 2.3.
3.1 Décomposition
au niveau de l’unité de l’erreur de la variance naïve d’échantillonnage
La quantité
dépend des valeurs y, des poids finaux et des probabilités
de sélection d’ordre un et d’ordre deux. La décomposition de l’erreur au niveau
de l’unité de la composante de variance d’échantillonnage naïf
est triviale puisque l’hypothèse
selon laquelle l’unité
passe de
à
ne change ni les poids ni les
probabilités de sélection. Dans l’hypothèse 1, la valeur déclarée prévue
est établie à
de sorte que
lorsque
est convertie en unité
répondante. Par conséquent, la décomposition de
est obtenue au moyen de
Ce résultat est cohérent avec l’idée que l’estimation
ponctuelle de la variance d’échantillonnage naïf changera probablement, mais
elle ne devrait pas diminuer avec l’ajout d’une unité répondante.
3.2 Décomposition
au niveau de l’unité de la correction de la composante de la variance d’échantillonnage
La décomposition de l’erreur au niveau de
l’unité pour l’unité
de la correction de la
composante de la variance d’échantillonnage,
est obtenue au moyen de
Dans l’hypothèse 2,
de sorte que
Le lecteur averti remarquera qu’il ne
devrait pas y avoir d’incidence sur la variance d’échantillonnage réel (et non
son estimation) qu’une unité soit répondante ou non. Cependant, nous avons
décidé d’inclure l’incidence qu’une unité a sur l’estimation de la variance d’échantillonnage
afin de traiter de façon cohérente les trois composantes
et
3.3 Décomposition
au niveau de l’unité de la composante de la variance de non-réponse
La décomposition de l’erreur au niveau de
l’unité pour l’unité
de la composante de la variance
de non-réponse
est obtenue au moyen de
Dans les hypothèses 2 et 3,
et
On peut réécrire l’expression
précédente comme suit :
Au moyen de la formule (3.1), ceci
devient
3.4 Décomposition
au niveau de l’unité de la composante de variance mixte
Enfin, l’incidence de l’unité
sur le terme de la composante de
variance,
est obtenue au moyen de
Cette équation peut être réécrite
comme suit, dans les hypothèses 2 et 3 et l’équation (3.1)
Dans la section 2.3, l’estimation de
la variance totale,
a été définie comme étant
De la même manière, l’incidence
de l’unité
sur
est définie comme suit :
où
et
sont respectivement obtenus par
les équations (3.2), (3.3), (3.4) et (3.5).
On peut observer (voir les preuves en
annexe) que
et
Cependant, cette relation
linéaire ne s’avère pas pour
Il est important de tenir compte
de cette propriété parce que, pour
et
la somme des erreurs au niveau
de l’unité de toutes les unités non répondantes,
est égale à la composante de
variance estimée correspondante. Dans le cas de la composante de la variance de
la non-réponse, la somme des erreurs est différente de
La différence est obtenue au
moyen de
Cette différence peut être relativement
faible, surtout dans les enquêtes auprès des entreprises caractérisées par des
données asymétriques. C’est le cas quand
Cela correspond aux résultats
présentés par Mills et coll. 2013.
Dans l’ensemble, on peut considérer la
variance totale comme approximativement linéaire pour ce qui est des erreurs au
niveau de l’unité, surtout dans le cas des enquêtes par sondage où
et
sont des facteurs importants de
la variance totale.