Critère de choix entre la pondération de calage et celle de sondage
Section 4. Étude par simulations
Afin de pouvoir évaluer le critère (3.4) pour savoir s’il convient d’utiliser les poids de calage ou se limiter à ceux de sondage, nous avons réalisé une série de simulations en utilisant des données observées sur une population de 5 800 unités artisanales. Nous avons considéré 6 variables de calage à partir desquelles plusieurs variables d’intérêt ont été générées en considérant des modèles de régression linéaire tout en tenant compte de degré du lien entre les variables d’intérêt et de calage à travers le choix de la variance résiduelle des modèles de régression. De plus, pour étudier l’effet de l’hétéroscédasticité des résidus du modèle sur les résultats obtenus pour le critère nous avons considéré aussi le cas où les variables d’intérêt sont générées en utilisant des modèles à résidus hétéroscédastiques.
Dans le cadre de ces simulations, nous avons sélectionné 10 000 échantillons selon un plan de sondage aléatoire simple (SAS) tout en considérant trois tailles d’échantillons : 100, 200 et 400 unités artisanales et ceci afin d’étudier l’effet de la taille de l’échantillon sur les résultats obtenus. Ainsi, à travers les 10 000 échantillons sélectionnés, nous avons calculé les indicateurs suivants :
- l’EQM anticipé de l’estimateur par calage dont l’expression est donnée par (2.5) et où et sont déterminés respectivement par la moyenne et la variance des poids en considérant tous les échantillons sélectionnés contenant l’unité
- l’approximation (2.10) de l’EQM anticipée de l’estimateur HT. Notons que correspond à (l’EQM anticipée (2.7) de l’estimateur HT) que nous avons pu calculer dans le cas de ces simulations car les échantillons sont sélectionnés selon un plan SAS.
- Weff : la valeur théorique du Weff calculé en utilisant (3.1) et qui est défini par le ratio de et
- la moyenne des simulations de l’estimateur de avec
- la moyenne des simulations de l’estimateur de avec
- la moyenne des simulations de l’estimateur (3.4) de Weff.
- l’EQM des simulations de définit par
Les résultats de ces simulations dans le cas des modèles de régression hétéroscédastiques sont présentés dans le tableau 4.1 ci-dessus tandis que les résultats obtenus dans le cas des modèles homoscédastiques sont repris dans le tableau A.1 donné en annexe.
Variables d’intérêt | |||||||
---|---|---|---|---|---|---|---|
Y1 | Y2 | Y3 | Y4 | Y5 | Y6 | ||
(R2 = 0,01) | (R2 = 0,10) | (R2 = 0,20) | (R2 = 0,50) | (R2 = 0,75) | (R2 = 0,98) | ||
n = 100 | (107) | 12 301,13 | 9 334,81 | 1 860,23 | 173,61 | 59,47 | 3,07 |
(107) | 11 285,46 | 8 643,37 | 1 841,84 | 323,46 | 212,69 | 160,35 | |
(107) | 11 285,44 | 8 643,34 | 1 841,81 | 323,43 | 212,66 | 160,32 | |
1,09 | 1,08 | 1,01 | 0,54 | 0,28 | 0,02 | ||
(107) | 12 463,22 | 9 484,87 | 1 984,51 | 180,37 | 62,07 | 3,21 | |
(107) | 11 856,45 | 9 068,99 | 1 929,87 | 330,59 | 215,13 | 160,07 | |
1,08 | 1,07 | 1,00 | 0,55 | 0,30 | 0,02 | ||
0,030 | 0,034 | 0,030 | 0,02 | 0,008 | 0,00005 | ||
n = 200 | (107) | 5 931,78 | 4 500,60 | 905,42 | 81,86 | 27,99 | 1,41 |
(107) | 5 543,74 | 4 245,87 | 904,76 | 158,89 | 104,48 | 78,77 | |
(107) | 5 543,72 | 4 245,85 | 904,75 | 158,88 | 104,46 | 78,75 | |
1,07 | 1,06 | 1,00 | 0,52 | 0,27 | 0,02 | ||
(107) | 5 770,29 | 4 382,31 | 969,57 | 83,81 | 28,68 | 1,48 | |
(107) | 5 673,08 | 4 341,19 | 924,64 | 160,71 | 105,06 | 78,71 | |
1,05 | 1,05 | 1,01 | 0,53 | 0,28 | 0,02 | ||
0,008 | 0,008 | 0,007 | 0,006 | 0,002 | 0,00005 | ||
n = 400 | (107) | 3 847,61 | 2 919,12 | 589,97 | 53,05 | 18,13 | 0,94 |
(107) | 3 629,83 | 2 780,03 | 592,40 | 104,04 | 68,41 | 51,57 | |
(107) | 3 629,82 | 2 780,02 | 592,39 | 104,03 | 68,40 | 51,56 | |
1,06 | 1,05 | 0,99 | 0,51 | 0,27 | 0,02 | ||
(107) | 3 718,79 | 2 889,81 | 594,01 | 53,89 | 18,44 | 0,95 | |
(107) | 3 687,44 | 2 821,34 | 602,39 | 104,83 | 68,68 | 51,60 | |
1,04 | 1,04 | 0,98 | 0,52 | 0,27 | 0,02 | ||
0,004 | 0,005 | 0,004 | 0,003 | 0,001 | 0,00001 |
Ainsi, les résultats obtenus suite aux simulations réalisées montrent que le critère Weff proposé pour mesurer l’effet de l’utilisation des poids de calage permet bien d’identifier les situations où il ne convient pas d’utiliser la pondération par calage et qui correspondent tous au cas où la variable d’intérêt est faiblement corrélée aux variables de calage De plus, l’estimateur (3.4) proposé pour estimer le critère Weff se révèle être un bon estimateur de ce dernier tout en enregistrant les mêmes performances et ceci quel que soit le degré du lien entre la variable d’intérêt et les variables de calage. Notons que la présence des résidus hétéroscédastiques pour les modèles de régression, représentant le lien entre la variable d’intérêt et les variables de calage, n’a presque pas d’effet sur les performances du critère Weff et son estimateur On enregistre également l’absence de l’impact de l’utilisation de l’approximation (2.8) de la variance sous le plan de puisque l’effet de l’écart entre l’EQM anticipée de l’estimateur HT et son approximation (2.10) sur les résultats relatifs au critère Weff est négligeable. Ceci était prévisible puisque le plan considéré est un SAS.
- Date de modification :