Recherche par

6. Études par simulation

Alina Matei et M. Giovanna Ranalli

Nous évaluons la performance de l’estimateur présenté à la section 5 au moyen d’une simulation Monte Carlo sous deux scénarios différents. Le premier utilise un ensemble de données réelles comme population et des variables d’intérêt qui sont toutes binaires, tandis que le second utilise des données de population simulées avec des variables d’intérêt continues. Les résultats pour le premier scénario sont présentés à la section 6.1, tandis que ceux pour le deuxième sont présentés à la section 6.2.

Sous les deux scénarios, nous utilisons l’échantillonnage aléatoire simple sans remise et considérons les estimateurs suivants :

$HT= \sum_{k \in s} y_{k j} / π_{k} :$ l’estimateur de Horvitz-Thompson dans le cas d’une réponse complète est calculé comme valeur de référence en l’absence de non-réponse.
${\hat{Y}}_{j, naïf} :$ l’estimateur naïf donné en (5.1); aucune mesure explicite n’est prise pour corriger les non-réponses totale et partielle. Notons que, sous échantillonnage aléatoire simple sans remise, il se réduit à ${\hat{Y}}_{j, naïf} = N \sum_{k \in r_{j}} y_{k j} / n_{r_{j}},$ où $n_{r_{j}}$ est la taille de l’ensemble $r_{j},$ et il est identique à l’estimateur de Horvitz-Thompson ajusté pour la non-réponse totale sous l’hypothèse de probabilités de réponse uniformes estimées par $n_{r_{j}} / n .$
${\hat{Y}}_{j, p q} :$ l’estimateur sous échantillonnage à trois phases proposé à la section 5, équation (5.2).
${\hat{Y}}_{j, p q, réelles} :$ l’estimateur sous échantillonnage à trois phases qui utilise les valeurs réelles des probabilités de réponse $p_{k}$ et $q_{k j}$ est également calculé aux fins de comparaison avec ${\hat{Y}}_{j, p q}$ pour comprendre l’effet de l’estimation des probabilités de réponse.

Les simulations sont exécutées en R version 2.15, en utilisant le module R « ltm » (Rizopoulos 2006) pour ajuster les modèles à traits latents. Les mesures de performance suivantes sont calculées pour chaque estimateur, ci-après désigné génériquement par $\hat{Y}$ où le suffixe $j$ est abandonné pour simplifier la notation $(Y$ désigne le total de population):

le biais Monte Carlo

$B= E_{sim} (\hat{Y}) - Y,$

où $E_{sim} (\hat{Y}) = \sum_{i = 1}^{M} {\hat{Y}}_{i} / M, {\hat{Y}}_{i}$ est la valeur de l’estimateur $\hat{Y}$ à la $i^{e}$ exécution de la simulation et $M$ est le nombre total d’exécutions de la simulation;
le biais relatif

$BR= \frac{B}{Y};$
l’écart-type Monte Carlo

$\sqrt{VAR} = \sqrt{\frac{1}{M - 1} \sum_{i = 1}^{M} {({\hat{Y}}_{i} - E_{sim} (\hat{Y}))}^{2}};$
l’erreur quadratique moyenne Monte Carlo

${EQM=B}^{2} + VAR .$

6.1 Scénario de simulation 1

Nous considérons un jeu de données formé de quatre variables binaires extraites de la British Social Attitudes Survey de 1986 et qui concernent l’attitude à l’égard de l’avortement. Les données sont disponibles dans le module R « ltm » (Rizopoulos 2006). $N = 379$ personnes ont répondu aux questions suivantes après qu’on leur ait demandé si la loi devrait permettre l’avortement dans les circonstances présentées par chaque item :

La femme décide toute seule qu’elle ne souhaite pas garder le bébé.
Le couple est d’accord qu’il ne souhaite pas avoir un enfant.
La femme n’est pas mariée et ne souhaite pas épouser l’homme.
Le couple n’a pas les moyens d’avoir un autre enfant.

La variable d’intérêt $y_{j}$ est choisie comme étant la deuxième $(j = 2)$ avec un total $Y_{j} =225$ dans la population.

Les données sont analysées par Bartholomew et coll. (2002) à titre d’exemple de situation où l’on peut trouver une variable latente qui mesure l’attitude à l’égard de l’avortement. Au niveau de la population, nous calculons la variable latente (notée ici $θ_{k}^{a})$ en utilisant le modèle (4.2) sur les données ${y_{k ℓ}}_{k = 1, \dots, N; ℓ = 1, \dots,4} .$ La corrélation entre les valeurs de $y_{k ℓ}$ et $θ_{k}^{a}$ est approximativement égale à 0,85, pour $ℓ = 1, \dots,4.$ Ensuite, nous avons fixé $θ_{k} = {\hat{θ}}_{k}^{a},$ pour tout $k = 1, \dots, N .$

Au niveau de la population, les probabilités de réponse totale sont générées en utilisant la structure de réponse suivante :

$p_{k} = 1 / (1 + \exp (- (0,7 + y_{k 2} + θ_{k} + 0,2 ε_{k}))), (6.1)$

avec $ε_{k} \sim U (0,1),$ pour simuler une non-réponse non ignorable. La moyenne de population de $p_{k}$ est égale à environ 0,74.

Pour générer les probabilités de réponse partielle au niveau de la population, le modèle utilisé est le suivant :

$q_{k ℓ} = 1 / (1 + \exp (- (b_{ℓ} θ_{k} + a_{ℓ} + y_{k ℓ}))), pour ℓ = 1, \dots,4, (6.2)$

où $b_{ℓ} = 3,$ pour $ℓ = 1, \dots,4,$ tandis que $a_{ℓ}$ prend différentes valeurs en fonction de $ℓ;$ en particulier, $a_{1} = 1, a_{2} = 0, a_{3} = - 0,5$ et $a_{4} = 1.$ Le taux nominal de non-réponse partielle pour les quatre items dans la population est de 35 %, 42 %, 47 % et 31 %, respectivement.

Nous tirons $M = 10 000$ échantillons aléatoires simples sans remise à partir de la population en utilisant deux tailles d’échantillon : $n = 50$ et $n = 100 .$ Dans chaque échantillon $s,$ les unités sont classées comme étant des répondants conformément à un échantillonnage de Poisson, en utilisant les probabilités $p_{k}$ calculées comme dans l’équation (6.1) et résultant en l’ensemble $r .$ Alors, sachant $r,$ nous construisons la matrice ${x_{k ℓ}}_{k \in r; ℓ = 1, ..., 4},$ où les valeurs de $x_{k ℓ}$ sont tirées selon un échantillonnage de Poisson avec probabilités $q_{k ℓ}$ définies en (6.2). Dans chaque simulation, le modèle (4.2) et l’ensemble de répondants $r$ sont utilisés pour calculer la variable ${\hat{θ}}_{k}$ pour tout $k \in s$ comme il est décrit à la section 4.4. Le modèle (4.4) est ajusté pour obtenir ${\hat{p}}_{k} .$ Le taux moyen de non-réponse partielle sur les simulations pour les quatre items est de 26 %, 33 %, 38 % et 23 %, respectivement. L’estimateur de variance jackknife a été calculé comme il est décrit à la section 5 en utilisant la fonction gencalib() dans le module R « sampling » (Tillé et Matei 2012) et la distance logistique (Deville, Särndal et Sautory 1993).

Le tableau 6.1 donne les résultats pour $n = 50$ et $n = 100 .$ Comme prévu, les estimateurs $HT$ et ${\hat{Y}}_{j, p q, réelles}$ ont un biais presque nul, tandis que le second présente une EQM relativement plus grande qui est due uniquement à la plus petite taille d’échantillon. L’estimateur naïf donne un biais négatif très important. Cela tient au fait que les unités dont la valeur de $y_{j}$ est nulle sont moins susceptibles de répondre et que le total est clairement sous-estimé. L’estimateur ${\hat{Y}}_{j, p q}$ présente un bien plus petit biais que l’estimateur naïf. Notons que la performance de l’estimateur proposé est dictée principalement par le biais absolu, de sorte qu’elle ne diffère pas particulièrement lorsqu’on augmente la taille de l’échantillon, mis à part une diminution de la variance. Si nous comparons ${\hat{Y}}_{j, p q, r é e l l es}$ et ${\hat{Y}}_{j, p q},$ nous notons que ${\hat{Y}}_{j, p q}$ souffre encore d’un certain biais qui provient de la spécification incorrecte de la structure de réponse (nous ne tenons pas compte des valeurs des variables d’intérêt).

Pour l’estimateur proposé, l’estimateur de variance jackknife a également été testé en examinant la couverture empirique d’un intervalle de confiance à 95 % calculé pour chaque réplique comme ${\hat{Y}}_{j, p q} \pm 1,96 \sqrt{{\hat{V}}_{r}} .$ Pour $n = 50,$ la valeur moyenne de $\sqrt{{\hat{V}}_{r}}$ sur l’ensemble des simulations était de 54,8, tandis que pour $n = 100,$ elle était de 53,3, avec un taux de couverture de l’IC à 95 % de 94,6 % et de 96,3 %, respectivement. L’estimateur par rééchantillonnage surestime l’écart-type Monte Carlo donné pour ${\hat{Y}}_{j, p q}$ au tableau 6.1 dans les deux cas, mais possède de bons taux de couverture.

Tableau 6.1
Résultats des simulations sous le scénario 1 – Ensemble de données sur l’avortement
Sommaire du tableau
Le tableau montre les résultats de Résultats des simulations sous le scénario 1 – Ensemble de données sur l’avortement. Les données sont présentées selon Estimateur (titres de rangée) et B, $\sqrt{VAR}$ , EQM et BR %(figurant comme en-tête de colonne).
Estimateur	B	$\sqrt{VAR}$	EQM	BR %
$n = 50$
$HT$	0,05	24,5	600,5	$<$ 0,1
${\hat{Y}}_{j, naïf}$	-126,5	19,4	16 378,6	-56,2
${\hat{Y}}_{j, p q}$	20,6	32,4	1 474,1	9,1
${\hat{Y}}_{j, p q, réelles}$	0,02	35,0	1 225,0	$<$ 0,1
$n = 100$
$HT$	-0,06	16,0	255,5	$<$ 0,1
${\hat{Y}}_{j, naïf}$	-126,9	13,5	16 284,1	-56,4
${\hat{Y}}_{j, p q}$	17,9	21,9	802,2	8,0
${\hat{Y}}_{j, p q, réelles}$	-0,1	23,7	559,9	$<$ 0,1

Pour étudier la performance du modèle à traits latents au niveau de la population et la corrélation entre la variable d’intérêt et la variable latente estimée, nous avons appliqué la procédure décrite plus haut en utilisant $q_{k ℓ}$ définie en (6.2) pour construire la matrice ${x_{k ℓ}}_{k = 1, \dots, N; ℓ = 1, ..., 4}$ pour toutes les unités de la population. Nous avons ajusté le modèle (4.2) au niveau de la population et calculé la variable $θ_{k}$ pour tout $k = 1, \dots, N .$ Le coefficient alpha de Cronbach prend la valeur de 0,83 ce qui indique une bonne cohérence interne des items. Le coefficient de corrélation entre la variable d’intérêt et la variable latente estimée prend la valeur de 0,76, ce qui indique que l’information auxiliaire latente possède un fort pouvoir de prédiction de $y_{k 2},$ comme il l’a été prôné pour le modèle de Cassel et coll. (1983). L’inspection des marges de tableau à double entrée pour la matrice ${x_{k ℓ}}$ donne les résidus ${(O - E)}^{2} / E,$ compris entre 0,03 et 0,23. De même, les marges de tableau à triple entrée pour la matrice ${x_{k ℓ}}$ donnent des résidus entre 0 et 1,19. Cela indique que nous n’avons aucune raison de rejeter ici le modèle à un facteur latent (4.2) (voir Bartholomew et coll. 2002, page 186).

6.2 Scénario de simulation 2

Nous générons ${y_{k 1}, \dots, y_{k 6}, θ_{k}}$ pour $k = 1, \dots, N = 2 000$ en utilisant une loi normale multivariée de moyenne 1. Le degré de corrélation entre $y_{ℓ}$ et $y_{ℓ^{'}}$ est 0,8, avec $ℓ, ℓ^{'} = 1, \dots,6, ℓ \neq ℓ^{'} .$ Nous posons que la variable d’intérêt est $y_{6}$ et considérons divers degrés de corrélation entre ses valeurs et celles prises par $θ_{k},$ à savoir 0,3, 0,5, 0,8. Les valeurs de $θ_{k}$ sont ensuite centrées et réduites afin qu’elles soient de moyenne 0 et de variance 1.

Les probabilités de réponse sont obtenues en calculant d’abord

$p_{k}^{\circ} = 1 / [1 + \exp (- (0, 5 + y_{k 1} + θ_{k}))], pour k = 1, \dots, N, (6.3)$

puis en les rééchelonnant afin qu’elles prennent des valeurs comprises entre 0,1 et 0,9, avec une moyenne de population approximativement égale à 0,7.

Les probabilités de réponse partielle sont générées en calculant d’abord :

$q_{k ℓ}^{\circ} = 1 / (1 + \exp (- (b_{ℓ} θ_{k} + a_{ℓ} + y_{k ℓ}))), pour k = 1, \dots, N et ℓ = 1, \dots,6, (6.4)$

où ${a_{ℓ}}_{ℓ = 1, \dots,6} = {1; 0; -0,5; 1; 0; -0,5}$ et ${b_{ℓ}}_{ℓ = 1, \dots,6} = {1; 1; 1; 1,5; 1,5; 1,5},$ puis en rééchelonnant les valeurs pour qu’elles soient comprises entre 0,1 et 0,95.

Nous tirons $M = 10 000$ échantillons par échantillonnage aléatoire simple sans remise de taille $n = 200 .$ Pour chaque échantillon $s,$ un ensemble de réponses $r$ est créé en réalisant un échantillonnage de Poisson de paramètre $p_{k}$ défini en (6.3). Chaque élément de la matrice ${x_{k ℓ}}_{k \in r, ℓ = 1, \dots,6}$ est généré en utilisant l’échantillonnage de Poisson de paramètre $q_{k ℓ}$ défini en (6.4). Les taux de non-réponse partielle sur l’ensemble des simulations prennent approximativement les valeurs de 18 %, 28 %, 35 %, 19 %, 29 % et 34 %, pour $ℓ = 1, \dots,6,$ respectivement. Pour chaque simulation, le modèle (4.2) est utilisé pour calculer la variable ${\hat{θ}}_{k}$ pour tout $k \in s .$ Le modèle (4.4) est alors ajusté pour obtenir ${\hat{p}}_{k} .$

Tableau 6.2
Résultats des simulations sous le scénario 2 – Données continues simulées
Sommaire du tableau
Le tableau montre les résultats de Résultats des simulations sous le scénario 2 – Données continues simulées. Les données sont présentées selon Estimateur (titres de rangée) et B, $\sqrt{VAR}$ , EQM et BR % (figurant comme en-tête de colonne).
Estimateur	B	$\sqrt{VAR}$	EQM	BR %
Coefficient de corrélation de 0,3
$HT$	-0,7	131,6	17 331,2	$\approx$ -0,0
${\hat{Y}}_{j, naïf}$	825,6	177,1	713 039,3	41,0
${\hat{Y}}_{j, p q}$	-227,4	188,0	87 033,0	-11,3
${\hat{Y}}_{j, p q, réelles}$	48,4	231,8	56 073,2	2,4
Coefficient de corrélation de 0,5
$HT$	0,1	135,0	18 220,5	$\approx$ 0,0
${\hat{Y}}_{j, naïf}$	972,6	176,2	977 009,5	50,7
${\hat{Y}}_{j, p q}$	-180,0	175,5	63 552,0	-9,4
${\hat{Y}}_{j, p q, réelles}$	74,8	212,7	50 844,0	3,9
Coefficient de corrélation de 0,8
$HT$	-0,1	134,1	17 992,0	$\approx$ -0,0
${\hat{Y}}_{j, naïf}$	1 154,6	168,1	1 361 388,1	57,7
${\hat{Y}}_{j, p q}$	-184,8	164,4	61 173,0	-9,2
${\hat{Y}}_{j, p q, réelles}$	100,6	196,2	48 597,9	5,0

Le tableau 6.2 donne la performance des estimateurs pour les trois valeurs prises par le coefficient de corrélation nominal entre $y_{k 1}$ et $θ_{k} :0,3, 0,5$ et $0,8 .$ L’estimateur proposé est toujours capable de réduire le biais comparativement à l’estimateur naïf, même quand la corrélation entre la variable d’intérêt et la variable latente devient plus faible. Le biais relatif prend des valeurs acceptables dans la plupart des cas. Le biais mérite d’être examiné de plus près. Dans tous les cas, l’estimateur naïf surestime fortement le total. Cela n’est pas étonnant, parce que les valeurs de $p_{k}, q_{k 6}, θ_{k}$ et $y_{k 6}$ vont toutes dans la même direction. Par conséquent, dans notre échantillon de répondants, nous sommes plus susceptibles de trouver des valeurs relativement grandes de $y_{6},$ ce qui donne lieu à une surestimation pour l’estimateur naïf. Par ailleurs, ${\hat{Y}}_{j, p q}$ sous-estime le total, parce qu’il est fondé uniquement sur les unités observées de $r_{j}$ qui ont des valeurs relativement grandes pour $y_{6},$ mais aussi des valeurs relativement grandes pour $p_{k}$ et $q_{k 6}$ et, par conséquent, qui ont à la fin un faible poids.

La matrice des valeurs de population ${x_{k ℓ}}_{k = 1, \dots, 2 000, ℓ = 1, \dots,6}$ est construite de la même façon qu’à la section 6.1 pour valider les hypothèses qui sous-tendent le modèle 2PL. Le coefficient alpha de Cronbach prend approximativement la valeur de 0,5 pour le coefficient de corrélation égal à 0,3, de 0,6 pour le coefficient de corrélation égal à 0,5, et de 0,7 pour le coefficient de corrélation égal à 0,8; l’association par paire entre les six items révèle des valeurs $p$ plus petites que 0,01. L’inspection des marges à double entrée et à triple entrée de la matrice ${x_{k ℓ}}$ donne des résidus ${(O - E)}^{2} / E$ qui prennent tous des valeurs inférieures à 4. Par conséquent, le modèle à un facteur latent peut être accepté et les items semblent tous mesurer le même facteur latent.

Précédent | Suivant

Date de modification :: 2015-11-27

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

6. Études par simulation

6.1 Scénario de simulation 1

6.2 Scénario de simulation 2