Recherche par

6. Une étude par simulation

Takis Merkouris

Nous avons réalisé une simulation pour étudier les propriétés relatives des divers estimateurs composites pour la version emboîtée du plan (c) élémentaire. Les valeurs des variables scalaires corrélées $x$ et $y$ ont été tirées d'une loi log-normale bivariée de moyenne $(μ_{x}, μ_{y})$ et de variance $(σ_{x}^{2}, σ_{y}^{2}) .$ Nous avons fixé $μ_{x} = 3,$ $μ_{y} = 5,$ quatre combinaisons de variances $(σ_{x}^{2}, σ_{y}^{2})$ (5 et 10) et avons considéré trois valeurs de la corrélation $ρ (x, y)$ (0,5, 0,7, 0,9). Les variances $σ_{x}^{2} = 5,$ $σ_{x}^{2} = 10$ impliquent une asymétrie de 2,65 et de 4,33, respectivement, tandis que les variances $σ_{y}^{2} = 5,$ $σ_{y}^{2} = 10$ impliquent une asymétrie de 1,43 et de 2,15, respectivement. Pour chacune de ces 12 configurations, nous avons créé une population de taille $N = 1 000 000 .$ De chacune des 12 populations, nous avons tiré un échantillon aléatoire simple $S$ de taille $n = 5 000$ sans remise, et l'avons divisé en trois sous-échantillons aléatoires simples $(S_{1}, S_{2}, S_{3})$ selon deux répartitions différentes, à savoir $(n_{1} = 2 000, n_{2} = 2 000, n_{3} = 1 000)$ et $(n_{1} = 1 500,$ $n_{2} = 1 500, n_{3} = 2 000),$ la deuxième répartition donnant des échantillon combinés plus grands $S_{1} \cup S_{3}$ et $S_{2} \cup S_{3} .$ Donc, un total de 24 configurations de simulation ont été créées. Pour chaque configuration, nous avons calculé les estimateurs HT des totaux $t_{x}$ et $t_{y}$ en utilisant l'échantillon complet $S,$ ainsi que l'estimateur HT de $t_{x}$ en utilisant $S_{1}$ et $S_{3},$ et l'estimateur HT de $t_{y}$ en utilisant $S_{2}$ et $S_{3} .$ Pour les estimateurs HT basés sur deux sous-échantillons, nous avons employé la méthode simple de combinaison de deux sous-échantillons (Gonzales et Eltinge 2008) par un ajustement de la pondération faisant intervenir la probabilité de sélection d'une unité de population dans $S_{1}$ ou dans $S_{3}$ et dans $S_{2}$ ou dans $S_{3} .$ En outre, pour $t_{x}$ ainsi que $t_{y},$ nous avons calculé les estimateurs RGC et ROC. Chaque configuration d'échantillonnage de simulation a été répétée 10 000 fois.

Le biais simulé (en pourcentage) de tous les estimateurs était inférieur à 0,05 %, excepté pour deux configurations comprenant $σ_{x}^{2} = 10,$ avec l'asymétrie de population associée de 4,33, pour lesquelles les plus grandes valeurs observées de 0,14 % et 0,17 % correspondent aux estimateurs RGC et ROC pour $t_{x},$ respectivement, sous la répartition d'échantillon (2 000, 2 000, 1 000), et tombent à 0,10 % et 0,13 % sous la répartition plus favorable (1 500, 1 500, 2 000). Donc, les efficacités relatives des estimateurs sont évaluées en utilisant leurs variances sous le plan de sondage simulé.

Le tableau 6.1 montre l'efficacité des estimateurs composites RGC et ROC par rapport aux estimateurs HT qui utilisent $S_{1} \cup S_{3}$ et $S_{2} \cup S_{3} .$ La mesure de cette efficacité relative est la différence relative entre les variances en pourcentage [V(RGC)-V(HT)]/V(HT) et [V(ROC)-V(HT)]/V(HT). Une valeur négative de cette mesure indique le gain d'efficacité obtenu avec les deux estimateurs composites. La perte d'efficacité simulée des estimateurs HT de $t_{x}$ ainsi que $t_{y}$ due au fait de ne pas utiliser l'échantillon complet $S,$ qui n'est pas présentée au tableau 6.1, est très proche de la perte nominale pour l'EAS, c'est-à-dire 66,8 % pour la répartition (2 000, 2 000, 1 000) et 43,1 % pour la répartition (1 500, 1 500, 2 000).

Tableau 6.1
Différences relatives (en pourcentage) entre les variances de RGC et ROC par rapport à HT pour x et y, basées sur 10 000 échantillons simulés avec deux répartitions d’échantillons différentes
Sommaire du tableau
Le tableau montre les résultats de Différences relatives (en pourcentage) entre les variances de RGC et ROC par rapport à HT pour x et y. Les données sont présentées selon (n1, n2, n3) (titres de rangée) et (2 000; 2 000; 1 000), (1 500; 1 500; 2 000) et XXX(figurant comme en-tête de colonne).
(n1, n2, n3)	(2 000; 2 000; 1 000)				(1 500; 1 500; 2 000)
	$x$		$y$		$x$		$y$
	RGC	ROC	RGC	ROC	RGC	ROC	RGC	ROC
$σ_{x}^{2} = 5 σ_{y}^{2} = 5$
$ρ = 0, 5$	-2,24	-6,86	26,39	-6,23	-5,19	-6,29	12,59	-6,52
$ρ = 0, 7$	-11,90	-14,75	10,21	-13,96	-12,78	-13,24	0,25	-13,13
$ρ = 0, 9$	-24,89	-28,57	-12,49	-28,10	-21,55	-23,37	-14,55	-23,03
$σ_{x}^{2} = 5 σ_{y}^{2} = 10$
$ρ = 0, 5$	-0,27	-6,75	6,50	-6,26	-3,94	-6,60	0,50	-6,44
$ρ = 0, 7$	-11,47	-14,56	-6,29	-14,04	-12,87	-13,51	-9,51	-13,10
$ρ = 0, 9$	-28,14	-28,42	-25,74	-28,23	-23,70	-23,54	-22,07	-23,09
$σ_{x}^{2} = 10 σ_{y}^{2} = 5$
$ρ = 0, 5$	-4,57	-6,51	28,64	-6,17	-5,90	-5,98	17,57	-6,44
$ρ = 0, 7$	-11,29	-14,37	16,08	-13,92	-11,66	-12,90	6,69	-13,00
$ρ = 0, 9$	-20,32	-28,09	-2,46	-28,19	-18,46	-22,97	-6,97	-22,91
$σ_{x}^{2} = 10 σ_{y}^{2} = 10$
$ρ = 0, 5$	-4,79	-6,49	8,54	-6,13	-6,06	-6,22	3,41	-6,34
$ρ = 0, 7$	-13,27	-14,28	-2,57	-13,95	-13,27	-13,15	-6,00	-12,93
$ρ = 0, 9$	-26,01	-28,06	-20,37	-28,21	-22,18	-23,17	-18,48	-22,89

Pour la variable $x,$ l'utilisation de l'estimateur RGC sous une faible corrélation $ρ = 0, 5$ et avec la répartition (2 000, 2 000, 1 000) donne un gain d'efficacité qui varie de 0,27 % à 4,79 % pour les quatre configurations de variance différentes; ce gain reflète la quantité d'information perdue qui est récupérée par l'estimateur RGC. Un gain important est réalisé pour $ρ = 0, 7,$ variant de 11,29 % à 13,27 %, et un gain encore plus important pour $ρ = 0, 9,$ variant de 20,32 % à 28,14 %. Avec la répartition d'échantillon (1 500, 1 500, 2 000), l'estimateur RGC donne de meilleurs résultats pour $ρ = 0, 5,$ et $ρ = 0, 7,$ mais non pour $ρ = 0,9 .$ Un gain supplémentaire est produit par l'estimateur ROC, qui est plus efficace que l'estimateur RGC dans toutes les configurations sauf deux (où les estimateurs sont aussi efficaces l'un que l'autre, voir la colonne 7). L'efficacité de l'estimateur ROC par rapport à l'estimateur HT est proche de la valeur nominale pour l'efficacité de l'EAS, qui est de 6,25, 13,92 et 28,12 pour $ρ = 0, 5,$ $ρ = 0, 7,$ $ρ = 0, 9,$ respectivement, pour la répartition (2 000, 2 000, 1 000) et de 6,417, 13,186 et 23,30 pour la répartition (1 500, 1 500, 2 000); voir la quantité E à l'avant-avant dernier paragraphe de la section 2. Comme prévu, l'estimateur RGC concurrence mieux l'estimateur ROC lorsque la corrélation et la taille d'échantillon augmentent.

Pour la variable $y,$ l'estimateur RGC est inférieur à l'estimateur HT au niveau de corrélation $ρ = 0, 5$ et, dans la moitié des configurations simulées au niveau $ρ = 0, 7;$ voir les valeurs positives dans les colonnes 4 et 8. Cette inefficacité de l'estimateur RGC varie de 6,50 % (pour $ρ = 0, 7)$ à 28,64 % (pour $ρ = 0, 5)$ pour la répartition d'échantillon (2 000, 2 000, 1 000), et se réduit pour varier de 0,25 % (pour $ρ = 0, 7)$ à 17,57 % (pour $ρ = 0, 5)$ pour la répartition d'échantillon (1 500, 1 500, 2 000). Cela s'explique par la plus grande asymétrie de $x$ (la variable $x$ étant utilisée comme variable auxiliaire de $y$ dans la régression); les niveaux plus faibles d'inefficacité sont observés pour $σ_{y}^{2} = 10,$ quand la différence d'asymétrie entre $x$ et $y$ est la plus petite. Par ailleurs, au niveau de corrélation $ρ = 0, 9$ et avec la répartition (2 000, 2 000, 1 000), le gain d'efficacité de l'estimateur RGC par rapport à l'estimateur HT varie de 2,46 % (quand la différence d'asymétrie est la plus grande) à 25,74 % (quand la différence d'asymétrie est la plus petite), avec des niveaux d'efficacité similaires observés pour la répartition (1 500, 1 500, 2 000). L'estimateur ROC est plus efficace que l'estimateur RGC dans toutes les configurations, l'efficacité relative étant proche de l'efficacité nominale pour l'EAS (même efficacité qu'avec $x) .$ Pour $y$ aussi, l'estimateur RGC concurrence mieux l'estimateur ROC lorsque la corrélation et la taille d'échantillon augmentent.

Cette étude empirique limitée, qui simule essentiellement la version EAS du théorème $1 (a ’),$ confirme la théorie sur l'efficacité de l'estimateur optimal ROC, même pour une modeste taille d'échantillon, et montre l'utilité des deux estimateurs composites RGC et ROC pour ce qui est de récupérer partiellement l'information perdue en raison du fractionnement du questionnaire complet. Elle montre aussi que le pratique estimateur RGC n'est pas toujours un bon substitut de l'estimateur ROC quand les échantillons sont petits et que la corrélation entre $x$ et $y$ est faible.

Précédent | Suivant

Date de modification :: 2015-11-27

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

6. Une étude par simulation