6. Études par simulation
Alina Matei et M. Giovanna Ranalli
Précédent | Suivant
Nous évaluons la performance de
l’estimateur présenté à la section 5 au moyen d’une simulation Monte Carlo
sous deux scénarios différents. Le premier utilise un ensemble de données
réelles comme population et des variables d’intérêt qui sont toutes binaires, tandis
que le second utilise des données de population simulées avec des variables
d’intérêt continues. Les résultats pour le premier scénario sont présentés à la
section 6.1, tandis que ceux pour le deuxième sont présentés à la section 6.2.
Sous les deux scénarios, nous utilisons
l’échantillonnage aléatoire simple sans remise et considérons les estimateurs suivants :
l’estimateur de Horvitz-Thompson
dans le cas d’une réponse complète est calculé comme valeur de référence en l’absence
de non-réponse.
l’estimateur naïf
donné en (5.1); aucune mesure explicite n’est prise pour corriger les
non-réponses totale et partielle. Notons que, sous échantillonnage aléatoire
simple sans remise, il se réduit à
où
est la taille de
l’ensemble
et il est identique
à l’estimateur de Horvitz-Thompson ajusté pour la non-réponse totale sous
l’hypothèse de probabilités de réponse uniformes estimées par
l’estimateur sous
échantillonnage à trois phases proposé à la section 5, équation (5.2).
l’estimateur sous
échantillonnage à trois phases qui utilise les valeurs réelles des probabilités
de réponse
et
est également
calculé aux fins de comparaison avec
pour comprendre
l’effet de l’estimation des probabilités de réponse.
Les simulations sont exécutées en R
version 2.15, en utilisant le module R « ltm » (Rizopoulos 2006) pour ajuster les modèles à traits latents. Les
mesures de performance suivantes sont calculées pour chaque estimateur, ci-après
désigné génériquement par
où le suffixe
est abandonné pour simplifier
la notation
désigne le total de
population):
-
le
biais Monte Carlo
où
est la valeur de
l’estimateur
à la
exécution de la
simulation et
est le nombre total
d’exécutions de la simulation;
-
le
biais relatif
l’écart-type
Monte Carlo
l’erreur
quadratique moyenne Monte Carlo
6.1 Scénario de simulation 1
Nous considérons un jeu de données formé
de quatre variables binaires extraites de la British Social Attitudes Survey de
1986 et qui concernent l’attitude à l’égard de l’avortement. Les données sont disponibles
dans le module R « ltm » (Rizopoulos 2006).
personnes ont répondu aux questions suivantes après qu’on leur ait demandé si
la loi devrait permettre l’avortement dans les circonstances présentées par
chaque item :
- La
femme décide toute seule qu’elle ne souhaite pas garder le bébé.
- Le
couple est d’accord qu’il ne souhaite pas avoir un enfant.
- La
femme n’est pas mariée et ne souhaite pas épouser l’homme.
- Le
couple n’a pas les moyens d’avoir un autre enfant.
La variable d’intérêt
est choisie comme étant la
deuxième
avec un total
dans la population.
Les données sont analysées par Bartholomew et coll. (2002) à titre
d’exemple de situation où l’on peut trouver une variable latente qui mesure l’attitude
à l’égard de l’avortement. Au niveau de la population, nous calculons la variable
latente (notée ici
en utilisant le modèle (4.2) sur
les données
La corrélation entre les valeurs
de
et
est approximativement égale à
0,85, pour
Ensuite, nous avons fixé
pour tout
Au niveau de la population, les probabilités
de réponse totale sont générées en utilisant la structure de réponse suivante :
avec
pour simuler une
non-réponse non ignorable. La moyenne de population de
est égale
à environ 0,74.
Pour générer les probabilités de
réponse partielle au niveau de la population, le modèle utilisé est le
suivant :
où
pour
tandis que
prend différentes
valeurs en fonction de
en particulier,
et
Le taux nominal de
non-réponse partielle pour les quatre items dans la population est de 35 %,
42 %, 47 % et 31 %, respectivement.
Nous tirons
échantillons aléatoires
simples sans remise à partir de la population en utilisant deux tailles d’échantillon :
et
Dans chaque échantillon
les unités sont classées comme
étant des répondants conformément à un échantillonnage de Poisson, en utilisant les probabilités
calculées comme dans l’équation
(6.1) et résultant en l’ensemble
Alors, sachant
nous construisons la matrice
où
les valeurs de
sont tirées selon un
échantillonnage de Poisson avec
probabilités
définies en (6.2). Dans
chaque simulation, le modèle (4.2) et l’ensemble de répondants
sont utilisés pour calculer
la variable
pour tout
comme il est décrit à la section 4.4.
Le modèle (4.4) est ajusté pour obtenir
Le taux moyen de non-réponse
partielle sur les simulations pour les quatre items est de 26 %, 33 %,
38 % et 23 %, respectivement. L’estimateur de variance jackknife a
été calculé comme il est décrit à la section 5 en utilisant la fonction gencalib() dans le module R « sampling » (Tillé et Matei 2012) et la distance logistique (Deville, Särndal et Sautory 1993).
Le tableau 6.1 donne les résultats
pour
et
Comme prévu, les estimateurs
et
ont un biais presque nul, tandis
que le second présente une EQM relativement plus grande qui est due uniquement
à la plus petite taille d’échantillon. L’estimateur naïf donne un biais négatif
très important. Cela tient au fait que les unités dont la valeur de
est nulle sont moins susceptibles de répondre et que le total est clairement
sous-estimé. L’estimateur
présente un bien plus petit
biais que l’estimateur naïf. Notons que la performance de l’estimateur proposé est
dictée principalement par le biais absolu, de sorte qu’elle ne diffère pas
particulièrement lorsqu’on augmente la taille de l’échantillon, mis à part une
diminution de la variance. Si nous comparons
et
nous notons que
souffre encore d’un certain
biais qui provient de la spécification incorrecte de la structure de réponse (nous
ne tenons pas compte des valeurs des variables d’intérêt).
Pour l’estimateur proposé, l’estimateur
de variance jackknife a également été testé en examinant la couverture empirique
d’un intervalle de confiance à 95 % calculé pour chaque réplique comme
Pour
la valeur moyenne de
sur l’ensemble des
simulations était de 54,8, tandis que pour
elle était de 53,3, avec un
taux de couverture de l’IC à 95 % de 94,6 % et de 96,3 %,
respectivement. L’estimateur par rééchantillonnage surestime l’écart-type Monte
Carlo donné pour
au tableau 6.1 dans les
deux cas, mais possède de bons taux de couverture.
Tableau 6.1
Résultats des simulations sous le scénario 1 – Ensemble de données sur l’avortement
Sommaire du tableau
Le tableau montre les résultats de Résultats des simulations sous le scénario 1 – Ensemble de données sur l’avortement. Les données sont présentées selon Estimateur (titres de rangée) et B, , EQM et BR %(figurant comme en-tête de colonne).
| Estimateur |
B |
|
EQM |
BR % |
|
|
|
|
0,05 |
24,5 |
600,5 |
0,1 |
|
|
-126,5 |
19,4 |
16 378,6 |
-56,2 |
|
|
20,6 |
32,4 |
1 474,1 |
9,1 |
|
|
0,02 |
35,0 |
1 225,0 |
0,1 |
|
|
|
|
-0,06 |
16,0 |
255,5 |
0,1 |
|
|
-126,9 |
13,5 |
16 284,1 |
-56,4 |
|
|
17,9 |
21,9 |
802,2 |
8,0 |
|
|
-0,1 |
23,7 |
559,9 |
0,1 |
Pour étudier la performance du modèle à
traits latents au niveau de la population et la corrélation entre la variable d’intérêt
et la variable latente estimée, nous avons appliqué la procédure décrite plus
haut en utilisant
définie en (6.2) pour
construire la matrice
pour toutes les unités de la population.
Nous avons ajusté le modèle (4.2) au niveau de la population et calculé la variable
pour tout
Le coefficient alpha de Cronbach prend la valeur de 0,83 ce qui indique
une bonne cohérence interne des items. Le coefficient de corrélation entre la variable
d’intérêt et la variable latente estimée prend la valeur de 0,76, ce qui
indique que l’information auxiliaire latente possède un fort pouvoir de
prédiction de
comme il l’a été prôné pour
le modèle de Cassel et coll. (1983).
L’inspection des marges de tableau à double entrée pour la matrice
donne les résidus
compris entre 0,03 et 0,23. De
même, les marges de tableau à triple entrée pour la matrice
donnent des résidus entre 0 et
1,19. Cela indique que nous n’avons aucune raison de rejeter ici le modèle à un
facteur latent (4.2) (voir Bartholomew et coll.
2002, page 186).
6.2
Scénario de simulation 2
Nous générons
pour
en utilisant une loi normale
multivariée de moyenne 1. Le degré de corrélation entre
et
est 0,8, avec
Nous posons que la variable d’intérêt
est
et considérons divers degrés de
corrélation entre ses valeurs et celles prises par
à savoir 0,3, 0,5, 0,8. Les valeurs
de
sont ensuite centrées et
réduites afin qu’elles soient de moyenne 0 et de variance 1.
Les probabilités de réponse sont
obtenues en calculant d’abord
puis en
les rééchelonnant afin qu’elles prennent des valeurs comprises entre 0,1 et 0,9,
avec une moyenne de population approximativement égale à 0,7.
Les probabilités de réponse partielle sont
générées en calculant d’abord :
où
et
puis en rééchelonnant
les valeurs pour qu’elles soient comprises entre 0,1 et 0,95.
Nous tirons
échantillons par échantillonnage
aléatoire simple sans remise de taille
Pour chaque échantillon
un ensemble de réponses
est créé en réalisant un
échantillonnage de Poisson de paramètre
défini en (6.3). Chaque élément
de la matrice
est généré en utilisant l’échantillonnage
de Poisson de paramètre
défini en (6.4). Les taux de non-réponse
partielle sur l’ensemble des simulations prennent approximativement les valeurs
de 18 %, 28 %, 35 %, 19 %, 29 % et 34 %, pour
respectivement. Pour chaque simulation, le
modèle (4.2) est utilisé pour calculer la variable
pour tout
Le modèle (4.4) est alors ajusté
pour obtenir
Tableau 6.2
Résultats des simulations sous le scénario 2 – Données continues simulées
Sommaire du tableau
Le tableau montre les résultats de Résultats des simulations sous le scénario 2 – Données continues simulées. Les données sont présentées selon Estimateur (titres de rangée) et B,
, EQM et BR % (figurant comme en-tête de colonne).
| Estimateur |
B |
|
EQM |
BR % |
| Coefficient de corrélation de 0,3 |
|
|
-0,7 |
131,6 |
17 331,2 |
-0,0 |
|
|
825,6 |
177,1 |
713 039,3 |
41,0 |
|
|
-227,4 |
188,0 |
87 033,0 |
-11,3 |
|
|
48,4 |
231,8 |
56 073,2 |
2,4 |
| Coefficient de corrélation de 0,5 |
|
|
0,1 |
135,0 |
18 220,5 |
0,0 |
|
|
972,6 |
176,2 |
977 009,5 |
50,7 |
|
|
-180,0 |
175,5 |
63 552,0 |
-9,4 |
|
|
74,8 |
212,7 |
50 844,0 |
3,9 |
| Coefficient de corrélation de 0,8 |
|
|
-0,1 |
134,1 |
17 992,0 |
-0,0 |
|
|
1 154,6 |
168,1 |
1 361 388,1 |
57,7 |
|
|
-184,8 |
164,4 |
61 173,0 |
-9,2 |
|
|
100,6 |
196,2 |
48 597,9 |
5,0 |
Le tableau 6.2 donne la
performance des estimateurs pour les trois valeurs prises par le coefficient de
corrélation nominal entre
et
et L’estimateur proposé est toujours
capable de réduire le biais comparativement à l’estimateur naïf, même quand la
corrélation entre la variable d’intérêt et la variable latente devient plus
faible. Le biais relatif prend des valeurs acceptables dans la plupart des cas.
Le biais mérite d’être examiné de plus près. Dans tous les cas, l’estimateur naïf
surestime fortement le total. Cela n’est pas étonnant, parce que les valeurs de
et
vont toutes dans la même
direction. Par conséquent, dans notre échantillon de répondants, nous sommes
plus susceptibles de trouver des valeurs relativement grandes de
ce qui donne lieu à une surestimation
pour l’estimateur naïf. Par ailleurs,
sous-estime le total, parce
qu’il est fondé uniquement sur les unités observées de
qui ont des valeurs relativement
grandes pour
mais aussi des valeurs relativement
grandes pour
et
et, par conséquent, qui ont
à la fin un faible poids.
La matrice des valeurs de population
est construite de la même façon
qu’à la section 6.1 pour valider les hypothèses qui sous-tendent le modèle
2PL. Le coefficient alpha de Cronbach prend
approximativement la valeur de 0,5 pour le coefficient de corrélation égal à 0,3,
de 0,6 pour le coefficient de corrélation égal à 0,5, et de 0,7 pour le
coefficient de corrélation égal à 0,8; l’association par paire entre les six
items révèle des valeurs plus petites que 0,01. L’inspection des marges
à double entrée et à triple entrée de la matrice
donne des résidus
qui prennent tous des valeurs
inférieures à 4. Par conséquent, le modèle à un facteur latent peut être accepté
et les items semblent tous mesurer le même facteur latent.
Précédent | Suivant