Ajustements pour la non-réponse dans les plans stratifiés assortis de modèles aux spécifications erronées 3. Résultats
La simulation a été effectuée dans le logiciel R (R Development Core Team 2011) à partir de 10 000 tirages (L et V en ont utilisé 1 000). Nous avons évalué les estimateurs en calculant la racine de l’erreur quadratique moyenne (reqm) et le biais des estimations, le biais et la reqm étant mesurés par les écarts par rapport aux quantités de population comme l’ont fait L et V. Nous avons utilisé la même taille d’échantillon total (312) que dans la simulation, mais avec différentes répartitions de l’échantillon ou différents taux d’échantillonnage relatifs entre les strates. Nous avons reproduit l’ensemble des 25 configurations de L et V; les résultats sont présentés dans le tableau S-1 des documents supplémentaires. Le tableau S-2 des documents supplémentaires comprend aussi les 25 configurations, mais présente le biais relatif des moyennes et des totaux avec et sans pondération, ainsi que les ratios des variances et des reqm des estimations non pondérées à ceux des estimations pondérées. Le biais relatif et les ratios des variances et des reqm facilitent les comparaisons entre les estimations. Les documents supplémentaires comprennent les erreurs de simulation estimées, qui sont toutes relativement petites. Pour les estimateurs et les taux d’échantillonnage donnés par L et V, nos résultats correspondent aux valeurs publiées, compte tenu des erreurs de simulation. Commençons par examiner le biais des estimateurs.
3.1 Biais
Il y a deux situations pour lesquelles il existe des résultats théoriques bien connus (Little et Rubin 2002). La première est lorsque la propension à répondre est la même dans toutes les cellules les données manquent complètement au hasard (MCAR, de l’anglais missing completely at random); ces données de type MCAR correspondent au modèle de la dernière ligne du tableau 2.2. Lorsqu’on a des données de type MCAR, les facteurs d’ajustement non pondéré et pondéré ont la même espérance mathématique, et tous deux produisent des estimations non biaisées. Les résultats de la simulation présentés dans le tableau V de l’article de L et V (lignes 5, 10, 15, 20 et 25) confirment cette observation. La deuxième situation est lorsque la propension à répondre est indépendante de la strate, ce qui correspond à des données qui manquent au hasard (MAR, de l’anglais missing at random) selon le modèle de réponse de la troisième ligne du tableau 2.2. Nous considérons ces situations comme étant de type MAR parce que le biais de l’estimateur ne dépend pas de l’utilisation de données à propos de Z dans le modèle. Encore une fois, les estimations avec et sans pondération sont toutes deux sans biais, et les ajustements ont la même espérance mathématique. Les résultats de la simulation présentés dans le tableau V de L et V (lignes 3, 8, 13, 18 et 23) confirment cette observation de façon empirique.
Afin de nous concentrer sur la situation dans laquelle les spécifications du modèle sont erronées, nous ne présentons pas les résultats des simulations pour les situations de type MCAR et MAR dans le présent article; ces résultats sont toutefois présentés dans les documents supplémentaires. Il importe de souligner que même si les ajustements avec et sans pondération pour les modèles de type MCAR et MAR ont la même espérance mathématique, ils ne sont pas identiques. Après avoir simulé les deux approches en vertu de modèles de type MAR, Sukasih et coll. (2009) se sont prononcés en faveur d’une approche de pondération, principalement en raison de la variabilité moindre des estimations des totaux pour l’ensemble des simulations, même si les deux approches donnent des résultats non biaisés.
Comme il est précisé plus haut, les taux d’échantillonnage varient dans le cadre de nos simulations, tandis que la taille globale de l’échantillon est fixée à 312; L et V ont utilisé un taux d’échantillonnage unique. Quand les taux d’échantillonnage sont les mêmes dans toutes les strates (c’est-à-dire que l’échantillon est réparti proportionnellement dans toutes les strates), les poids d’échantillonnage sont les mêmes pour chaque strate et, en conséquence, les estimateurs avec et sans pondération sont identiques. Le taux d’échantillonnage selon une répartition proportionnelle joue un rôle important dans notre présentation, parce que les deux estimations doivent converger à cette étape.
Le graphique présenté à la figure 3.1 (à gauche) illustre les résultats de la simulation pour le biais des estimateurs avec et sans pondération du total pour et Nous avons choisi cette configuration (ligne 2 dans les tableaux de L et V) parce que les simulations de L et V montrent que la moyenne non pondérée est assortie d’un biais et d’une reqm plus faibles que la moyenne pondérée dans ce cas particulier. L’axe horizontal indique le taux d’échantillonnage relatif calculé comme étant le ratio du taux d’échantillonnage de à ou Le taux d’échantillonnage relatif employé par L et V était d’environ 2,25. On voit tout de suite que le biais de l’estimateur pondéré est pratiquement constant pour les différents taux d’échantillonnage, alors que le biais de l’estimateur non pondéré varie considérablement selon le taux d’échantillonnage relatif. Pour certains taux d’échantillonnage, le biais des estimateurs non pondérés du total peut être plus de deux fois celui de l’estimateur pondéré. Les deux types d’estimateur sont biaisés pour presque tous les taux d’échantillonnage relatifs, et l’estimateur qui a le biais le plus faible dépend du taux d’échantillonnage relatif. Lorsque les taux d’échantillonnage relatifs sont égaux (répartition proportionnelle), les estimateurs sans pondération et avec pondération ont le même biais, comme prévu. Cependant, dans la pratique, il n’est généralement pas possible de reconnaître l’effet du taux d’échantillonnage sur le biais et de choisir à l’avance la méthode d’ajustement qui permet de réduire le biais pour un échantillon particulier.
Description de la figure 3.1
Figure présentant le biais des estimateurs avec et sans pondération pour le modèle de population et le modèle de propension à répondre Il y a deux graphiques, un pour le total et un pour la moyenne. Pour le total, le biais sur l’axe des y va de -1 000 à 1 500 et le taux d’échantillonnage relatif sur l’axe des x va de 0,0 à 3,0. Le biais de l’estimateur pondéré est pratiquement constant pour les différents taux d’échantillonnage, alors que le biais de l’estimateur non pondéré varie considérablement selon le taux d’échantillonnage relatif. Pour la moyenne, le biais sur l’axe des y va de 0,0 à 0,08 et le taux d’échantillonnage relatif sur l’axe des x va de 0,0 à 3,0. Le biais pour l’estimateur pondéré est encore une fois indépendant du taux d’échantillonnage relatif, alors que le biais de l’estimateur non pondéré varie en fonction du taux d’échantillonnage.
Pour comprendre ces résultats, nous avons appliqué des approximations standard qui se vérifient raisonnablement bien dans ce cas (c’est-à-dire La valeur prévue approximative pour l’estimateur pondéré est
où est le total de population de la cellule De même, la valeur prévue approximative pour l’estimateur non pondéré est
Si est une constante (MCAR) ou est une constante dans les cellules de pondération (MAR), alors les deux estimateurs ne sont pas biaisés à cet ordre d’approximation et concordent avec la théorie connue. Lorsque les taux d’échantillonnage sont les mêmes dans toutes les strates, les deux estimateurs ont la même valeur prévue (comme il est précisé plus haut, ils sont identiques dans ce cas). Surtout, ces approximations montrent que l’espérance mathématique de l’estimateur pondéré ne dépend pas du taux d’échantillonnage, mais que celle de l’estimateur non pondéré, elle, en dépend. Cela explique les courbes illustrées à la figure 3.1.
Quelques détails des estimations de la simulation pour cette configuration sont présentés dans le tableau 3.1 pour certains taux d’échantillonnage. Comme il est indiqué ci-dessus, les résultats complets de la simulation pour toutes les configurations et tous les taux d’échantillonnage utilisés pour dessiner les graphiques se trouvent dans les documents supplémentaires. Ces documents comprennent les biais relatifs, les ratios des variances et les ratios des reqm, qui constituent de meilleurs indicateurs pour évaluer l’incidence des ajustements sur les estimations. Nous avons constaté que pour toutes les configurations dont les estimations des totaux sont biaisées, les biais pour l’estimateur pondéré sont inférieurs d’un côté du taux d’échantillonnage relatif de 1, et supérieurs de l’autre côté. Toutes les configurations sont assorties d’un biais à peu près constant pour l’estimateur pondéré du total pour tous les taux d’échantillonnage relatifs, mais le biais de l’estimateur non pondéré varie en fonction du taux d’échantillonnage relatif.
Examinons maintenant les moyennes estimées les seuls estimateurs examinés par L et V. Le graphique de droite de la figure 3.1 montre que le biais pour l’estimateur pondéré est encore une fois indépendant du taux d’échantillonnage relatif, alors que le biais de l’estimateur non pondéré varie en fonction du taux d’échantillonnage. L et V ont utilisé un taux d’échantillonnage de 2,25, ce qui explique pourquoi ils ont trouvé que l’estimateur non pondéré était associé à un biais inférieur pour la moyenne dans le cadre de leur exercice de simulation. Il importe de souligner deux choses à cet égard. D’une part, les biais pour les moyennes pour les deux méthodes d’ajustement sont tous relativement faibles, particulièrement par rapport aux biais relatifs potentiels des totaux obtenus à l’aide de l’estimateur non pondéré (graphique de gauche). D’autre part, il n’y a aucun moyen de déterminer si une estimation particulière tomberait du côté gauche ou du côté droit du taux d’échantillonnage relatif de 1. Le tableau 3.1 montre les biais estimés pour cette configuration.
Les graphiques illustrent aussi une relation quelque peu étonnante : les taux d’échantillonnage relatifs pour lesquels l’estimateur non pondéré du total est assorti d’un biais inférieur sont ceux pour lesquels l’estimateur non pondéré de la moyenne est assorti d’un biais supérieur. En d’autres termes, les moyennes se comportent différemment des totaux parce que la moyenne non pondérée est un ratio alors que la moyenne pondérée n’en est pas un. En conséquence, le biais relatif (br = biais/estimation) de l’estimateur non pondéré de la moyenne n’est pas égal au biais relatif de l’estimateur non pondéré du total (la relation est vérifiée pour l’estimateur pondéré). On peut approximer le biais relatif comme suit :
où est l’estimateur non pondéré du total (où pour toutes les valeurs de Cette approximation se vérifie raisonnablement bien dans cette situation, puisque Le biais relatif de la moyenne non pondérée diminue donc quand les biais du numérateur et du dénominateur sont positivement corrélés.
Examinons maintenant les estimations de domaine que L et V n’ont pas étudiées. Les biais pour les estimateurs du total de domaine avec et sans pondération et la relation avec les biais des estimateurs non pondérés qui varient en fonction du taux d’échantillonnage relatif sont les mêmes que ceux qui ont été observés pour les totaux globaux (voir le tableau 3.1), parce que les totaux de domaine demeurent des totaux et que les approximations (3.1) et (3.2) continuent de s’appliquer. Les moyennes de domaine sont aussi présentées dans le tableau, et elles aussi suivent la tendance des biais illustrée à la figure 3.1 pour la moyenne de l’échantillon complet. Il importe de souligner que les biais relatifs pour les estimations de la moyenne (globale et pour chaque domaine) ne varient pas beaucoup, la plupart d’entre eux se trouvant entre 5 % et 7 %.
Caractéristique | Domaine | Ajustement | Taux d’échantillonnage relatif | |||||
---|---|---|---|---|---|---|---|---|
0,30 | 0,44 | 1,00 | 2,25 | 3,30 | ||||
Biais | Moyenne | Complet | trnp | 515 | 491 | 404 | 301 | 248 |
trp | 398 | 403 | 404 | 404 | 394 | |||
50 % | trnp | 513 | 501 | 411 | 307 | 257 | ||
trp | 397 | 414 | 410 | 410 | 401 | |||
25 % | trnp | 523 | 498 | 407 | 298 | 252 | ||
trp | 408 | 411 | 407 | 400 | 395 | |||
Total | Complet | trnp | -419 | -184 | 401 | 1 058 | 1 335 | |
trp | 398 | 403 | 404 | 404 | 394 | |||
50 % | trnp | -214 | -89 | 205 | 535 | 673 | ||
trp | 194 | 205 | 206 | 207 | 200 | |||
25 % | trnp | -107 | -48 | 101 | 264 | 335 | ||
trp | 97 | 98 | 102 | 101 | 100 | |||
reqm | Moyenne | Complet | trnp | 643 | 614 | 546 | 536 | 566 |
trp | 553 | 547 | 545 | 587 | 616 | |||
50 % | trnp | 758 | 726 | 669 | 699 | 778 | ||
trp | 687 | 671 | 669 | 728 | 794 | |||
25 % | trnp | 949 | 898 | 863 | 952 | 1 062 | ||
trp | 895 | 859 | 863 | 955 | 1 041 | |||
Total | Complet | trnp | 537 | 376 | 543 | 1 183 | 1 485 | |
trp | 553 | 547 | 545 | 587 | 616 | |||
50 % | trnp | 371 | 311 | 393 | 714 | 888 | ||
trp | 399 | 392 | 394 | 449 | 494 | |||
25 % | trnp | 255 | 233 | 282 | 451 | 553 | ||
trp | 285 | 273 | 283 | 328 | 365 | |||
Variance | Moyenne | Complet | trnp | 15 | 14 | 14 | 20 | 26 |
trp | 15 | 14 | 14 | 18 | 22 | |||
50 % | trnp | 32 | 28 | 28 | 40 | 54 | ||
trp | 32 | 28 | 28 | 37 | 47 | |||
25 % | trnp | 64 | 57 | 59 | 83 | 107 | ||
trp | 64 | 58 | 59 | 76 | 93 | |||
Total | Complet | trnp | 11 | 11 | 14 | 28 | 43 | |
trp | 15 | 14 | 14 | 18 | 22 | |||
50 % | trnp | 9 | 9 | 11 | 23 | 34 | ||
trp | 12 | 11 | 11 | 16 | 21 | |||
25 % | trnp | 5 | 5 | 7 | 14 | 20 | ||
trp | 7 | 7 | 7 | 10 | 12 |
3.2 Racine de l’erreur quadratique moyenne (reqm)
Malgré la petite taille de l’échantillon utilisé pour les simulations (312 avant la non-réponse) et le biais relatif plutôt modeste des estimations pour les moyennes, le biais demeure une composante importante de la reqm. Par exemple, le biais représente 56 % (sans pondération) à 69 % (avec pondération) de la reqm pour l’estimation de la moyenne selon la configuration et et le même taux d’échantillonnage que L et V. Lorsque l’échantillon est plus important, comme c’est généralement le cas pour les grandes enquêtes par sondage, le biais est souvent la composante dominante de la reqm (Brick 2013).
La figure 3.2 montre la reqm pour le total estimé (graphique de gauche) et pour la moyenne (graphique de droite) selon la même configuration que pour la figure précédente. La reqm pour le total pour l’estimateur pondéré est approximativement constante et inférieure à la reqm pour l’estimateur non pondéré, sauf lorsque le taux d’échantillonnage relatif est d’environ 0,5, ce qui correspond à la région où le biais est très faible pour l’estimateur non pondéré (voir la figure 3.1). Toutefois, lorsque le taux d’échantillonnage relatif est supérieur à un, la reqm pour l’estimateur non pondéré du total est beaucoup plus grande que la reqm pour l’estimateur pondéré (jusqu’à deux fois plus élevée pour certains taux d’échantillonnage). En revanche, pour les estimations de la moyenne illustrées à la figure 3.2 (graphique de droite), les reqm des estimateurs avec et sans pondération sont du même ordre de grandeur, et la symétrie autour du taux de répartition proportionnelle demeure. Même si L et V soulignent que l’estimateur non pondéré a une reqm inférieure (au taux d’échantillonnage relatif de 2,25), nous considérons les reqm des deux estimateurs comme étant approximativement égales pour tous les taux d’échantillonnage relatifs.
Description de la figure 3.2
Figure présentant la racine de l’erreur quadratique moyenne pour les estimateurs avec et sans pondération pour et Il y a deux graphiques, un pour le total et un pour la moyenne. Pour le total, la reqm (en millions) sur l’axe des y va de 0 à 20 et le taux d’échantillonnage relatif sur l’axe des x va de 0,0 à 3,0. La reqm pour l’estimateur pondéré est approximativement constante et inférieure à la reqm pour l’estimateur non pondéré, sauf lorsque le taux d’échantillonnage relatif est d’environ 0,5. Toutefois, lorsque le taux d’échantillonnage relatif est supérieur à un, la reqm pour l’estimateur non pondéré du total est beaucoup plus grande que la reqm pour l’estimateur pondéré. Pour la moyenne, la reqm sur l’axe des y va de 0 à 1 000 et le taux d’échantillonnage relatif sur l’axe des x va de 0,0 à 3,0. Les reqm des estimateurs avec et sans pondération sont du même ordre de grandeur, et la symétrie autour du taux de répartition proportionnelle demeure.
La figure 3.3 indique la reqm pour la moyenne estimée pour un domaine de 50 % (graphique de gauche) et un domaine de 25 % (graphique de droite), encore une fois pour et L’examen des trois graphiques de la reqm (pour la moyenne globale, la moyenne pour un domaine de 50 % et la moyenne pour un domaine de 25 %) révèle l’effet de l’estimateur par ratio. À mesure que la taille du domaine passe de 100 % à 25 %, l’estimateur pondéré ressemble de plus en plus à un estimateur par ratio inconditionnel et la corrélation entre le numérateur et le dénominateur réduit la reqm de l’estimation. En conséquence, les reqm des estimateurs de domaine avec et sans pondération sont très semblables. Même si l’estimateur pondéré est assorti d’une reqm inférieure à chacun des taux d’échantillonnage relatifs comparativement à l’estimateur non pondéré pour la moyenne pour un domaine de 25 %, les deux estimateurs sont essentiellement équivalents en termes de reqm. Le léger avantage de l’estimateur non pondéré qu’ont souligné L et V pour la moyenne pour l’ensemble de la population selon cette configuration disparaît pour les moyennes de domaine où l’estimateur pondéré est aussi un estimateur par ratio.
Description de la figure 3.3
Figure présentant la racine de l’erreur quadratique moyenne pour les estimateurs avec et sans pondération pour et Il y a deux graphiques, un pour la moyenne pour un domaine de 50 % et un pour la moyenne pour un domaine de 25 %. Pour les deux graphiques, la reqm sur l’axe des y va de 0 à 1 400 et le taux d’échantillonnage relatif sur l’axe des x va de 0,0 à 3,0. Les reqm des estimateurs de domaine avec et sans pondération sont très semblables. Même si l’estimateur pondéré est assorti d’une reqm inférieure à chacun des taux d’échantillonnage relatifs comparativement à l’estimateur non pondéré pour la moyenne pour un domaine de 25 %, les deux estimateurs sont essentiellement équivalents en termes de reqm.
3.3 Variance
Quand les facteurs d’ajustement pour la non-réponse sont fondés sur un petit nombre de répondants, il est possible qu’ils accroissent la variance des estimations (Kalton 1983; Tremblay 1986). L et V sont d’avis que la pondération des facteurs d’ajustement pour la non-réponse pourrait entraîner une inflation de la variance supérieure à celle que l’on obtient lorsqu’on utilise des facteurs non pondérés. Les figures ci-dessus montrent que cela ne s’est pas produit dans le cadre de notre exercice de simulation. La figure 3.4 illustre le ratio de la variance de l’estimateur non pondéré à la variance de l’estimation pondérée pour la moyenne et le total pour l’ensemble de la population et pour le total du domaine de 50 % selon la configuration et Pour la moyenne, le ratio des variances est presque égal à un pour tous les taux d’échantillonnage relatifs; il n’y a pas d’inflation de la variance pour l’estimateur pondéré comparativement à l’estimateur non pondéré. En ce qui concerne les totaux, le ratio est inférieur à un pour les taux d’échantillonnage relatifs de moins de 1, et supérieur à un pour les taux d’échantillonnage relatifs de plus de 1. Cette relation se vérifie aussi pour le total du domaine de 50 %. Ces résultats semblent indiquer que la pondération de l’ajustement n’est pas une source de facteurs importants susceptibles de faire augmenter la variance des estimations. Par mesure de prudence, il convient d’examiner l’importance des facteurs de non-réponse, qu’ils soient ou non pondérés.
Description de la figure 3.4
Figure présentant les ratios des variances des estimations non pondérées aux estimations pondérées de la moyenne, du total global et du total pour un domaine de 50 % selon et Le ratio des variances est sur l’axe des y, allant de 0,0 à 2,0 et le taux d’échantillonnage relatif est sur l’axe des x, allant de 0,0 à 3,5. Pour la moyenne, le ratio des variances est presque égal à un pour tous les taux d’échantillonnage relatifs; il n’y a pas d’inflation de la variance pour l’estimateur pondéré comparativement à l’estimateur non pondéré. En ce qui concerne les totaux, le ratio est inférieur à un pour les taux d’échantillonnage relatifs de moins de 1, et supérieur à un pour les taux d’échantillonnage relatifs de plus de 1. Cette relation se vérifie aussi pour le total du domaine de 50 %.
Le tableau 3.2 présente les résultats de simulation pour une autre configuration, et qui était favorable à l’ajustement non pondéré dans le cadre de l’étude de L et V (première ligne de leurs tableaux), alors que le tableau 3.3 présente les résultats de simulation pour la configuration et qui était favorable à l’ajustement pondéré. Les résultats pour ces deux configurations montrent les mêmes tendances générales présentées ci-dessus pour et
Caractéristique | Domaine | Ajustement | Taux d’échantillonnage relatif | |||||
---|---|---|---|---|---|---|---|---|
0,30 | 0,44 | 1,00 | 2,25 | 3,30 | ||||
Biais | Moyenne | Complet | trnp | 329 | 329 | 289 | 255 | 237 |
trp | 294 | 299 | 289 | 298 | 298 | |||
50 % | trnp | 334 | 341 | 293 | 251 | 238 | ||
trp | 299 | 311 | 293 | 294 | 298 | |||
25 % | trnp | 336 | 344 | 306 | 257 | 247 | ||
trp | 302 | 314 | 306 | 299 | 307 | |||
Total | Complet | trnp | -412 | -187 | 287 | 732 | 901 | |
trp | 294 | 299 | 289 | 298 | 298 | |||
50 % | trnp | -209 | -91 | 145 | 367 | 455 | ||
trp | 143 | 152 | 146 | 149 | 154 | |||
25 % | trnp | -103 | -46 | 72 | 184 | 230 | ||
trp | 74 | 76 | 73 | 75 | 79 | |||
reqm | Moyenne | Complet | trnp | 530 | 507 | 476 | 501 | 533 |
trp | 505 | 487 | 476 | 520 | 554 | |||
50 % | trnp | 684 | 653 | 616 | 664 | 732 | ||
trp | 666 | 638 | 616 | 674 | 740 | |||
25 % | trnp | 911 | 859 | 832 | 920 | 1 016 | ||
trp | 900 | 849 | 832 | 920 | 1 011 | |||
Total | Complet | trnp | 550 | 395 | 474 | 886 | 1 078 | |
trp | 505 | 487 | 476 | 520 | 554 | |||
50 % | trnp | 385 | 326 | 373 | 575 | 696 | ||
trp | 394 | 375 | 373 | 425 | 475 | |||
25 % | trnp | 263 | 244 | 278 | 390 | 464 | ||
trp | 285 | 274 | 278 | 321 | 361 | |||
Variance | Moyenne | Complet | trnp | 17 | 15 | 14 | 19 | 23 |
trp | 17 | 15 | 14 | 18 | 22 | |||
50 % | trnp | 36 | 31 | 30 | 38 | 48 | ||
trp | 36 | 31 | 30 | 37 | 46 | |||
25 % | trnp | 73 | 63 | 61 | 79 | 98 | ||
trp | 73 | 63 | 61 | 76 | 94 | |||
Total | Complet | trnp | 14 | 12 | 14 | 25 | 35 | |
trp | 17 | 15 | 14 | 18 | 22 | |||
50 % | trnp | 11 | 10 | 12 | 20 | 28 | ||
trp | 14 | 12 | 12 | 16 | 20 | |||
25 % | trnp | 6 | 6 | 7 | 12 | 16 | ||
trp | 8 | 7 | 7 | 10 | 13 |
Caractéristique | Domaine | Ajustement | Taux d’échantillonnage relatif | |||||
---|---|---|---|---|---|---|---|---|
0,30 | 0,44 | 1,00 | 2,25 | 3,30 | ||||
Biais | Moyenne | Complet | trnp | 763 | 735 | 654 | 566 | 529 |
trp | 665 | 661 | 654 | 654 | 652 | |||
50 % | trnp | 773 | 737 | 653 | 564 | 532 | ||
trp | 677 | 664 | 653 | 651 | 656 | |||
25 % | trnp | 773 | 739 | 659 | 574 | 513 | ||
trp | 679 | 668 | 659 | 660 | 636 | |||
Total | Complet | trnp | -272 | -8 | 651 | 1 411 | 1 744 | |
trp | 665 | 661 | 654 | 654 | 652 | |||
50 % | trnp | -133 | -6 | 326 | 711 | 875 | ||
trp | 336 | 328 | 328 | 332 | 328 | |||
25 % | trnp | -69 | -2 | 157 | 359 | 438 | ||
trp | 165 | 166 | 158 | 168 | 165 | |||
reqm | Moyenne | Complet | trnp | 854 | 818 | 745 | 699 | 711 |
trp | 767 | 753 | 745 | 764 | 790 | |||
50 % | trnp | 951 | 901 | 827 | 816 | 863 | ||
trp | 877 | 845 | 826 | 863 | 912 | |||
25 % | trnp | 1 101 | 1 046 | 981 | 1 023 | 1 098 | ||
trp | 1 044 | 1 004 | 981 | 1 045 | 1 107 | |||
Total | Complet | trnp | 426 | 313 | 741 | 1 503 | 1 868 | |
trp | 767 | 753 | 745 | 764 | 790 | |||
50 % | trnp | 334 | 300 | 475 | 867 | 1 071 | ||
trp | 489 | 470 | 476 | 529 | 575 | |||
25 % | trnp | 246 | 240 | 314 | 530 | 649 | ||
trp | 320 | 316 | 314 | 372 | 409 | |||
Variance | Moyenne | Complet | trnp | 15 | 13 | 13 | 17 | 23 |
trp | 15 | 13 | 13 | 16 | 20 | |||
50 % | trnp | 31 | 27 | 26 | 35 | 46 | ||
trp | 31 | 28 | 26 | 32 | 40 | |||
25 % | trnp | 62 | 56 | 54 | 73 | 95 | ||
trp | 63 | 57 | 54 | 67 | 83 | |||
Total | Complet | trnp | 11 | 10 | 13 | 27 | 45 | |
trp | 15 | 13 | 13 | 16 | 20 | |||
50 % | trnp | 10 | 9 | 12 | 25 | 39 | ||
trp | 13 | 12 | 12 | 17 | 22 | |||
25 % | trnp | 6 | 6 | 7 | 15 | 23 | ||
trp | 8 | 7 | 8 | 11 | 14 |
3.4 Estimation de la taille de population
Sukasih et coll. (2009) ont étudié un type particulier d’estimation, soit l’estimation du nombre d’unités d’une population. On parle alors d’une estimation de la taille de population où la taille de population n’est qu’une estimation d’un total où pour toutes les valeurs de Elle peut être estimée pour un domaine en affectant à toutes les unités en dehors du domaine la valeur Dans le plan d’échantillonnage simple stratifié étudié ici, l’estimateur pondéré reproduit toujours la taille de population totale, mais pas l’estimateur non pondéré. Comme cette situation favorise clairement l’estimateur pondéré, nous examinons plutôt l’estimation de la taille de population d’un domaine.
Supposons que nous voulions estimer le nombre d’unités d’un domaine ou d’un sous-groupe qui ont une valeur en dessous d’un centile défini par une caractéristique pour la population totale (par exemple le revenu médian national). Ce type de statistique est extrêmement important dans les enquêtes, parce que les estimations de la taille de population pour les domaines sont souvent des statistiques clés. Ce type d’estimation peut être, par exemple, le nombre total de personnes ayant un revenu sous le seuil de pauvreté ou de faible revenu (Kovačević et Yung 1997).
Comme l’analyse de L et V ne tenait pas compte des estimations pour les tailles ou les moyennes de domaine, il n’existe pas de variable explicite qui pourrait servir à définir une sous-population. Pour ne pas compliquer l’analyse, nous illustrons le rendement des deux estimateurs à l’aide d’un domaine artificiel créé par la sélection aléatoire de la moitié de la population (c’est-à-dire un domaine de 50 %). Selon une analyse semblable à celle dont il est question dans les sections précédentes, nous avons calculé les totaux et les moyennes pondérés et non pondérés pour le domaine de 50 %. Même si nous connaissons déjà la taille du domaine de l’exemple (c’est-à-dire 50 % de la population totale), l’analyse demeure valide. Dans la pratique, la taille du domaine n’est pas connue.
Quand on estime une statistique comme la taille de population d’un domaine, les deux estimateurs, pondéré et non pondéré, de la taille de population du domaine ne sont pas biaisés lorsque les données sont de type MCAR ou MAR, comme le soulignent Sukasih et coll. (2009). En outre, les reqm des estimateurs avec et sans pondération sont approximativement égales dans ce cas, comme le confirment les simulations.
Si les données ne sont pas de type MAR, la situation peut être très différente. L’estimateur pondéré d’une taille de population de domaine est à peu près non biaisé pour tous les taux d’échantillonnage relatifs et toutes les configurations, alors que l’estimateur non pondéré est toujours biaisé, sauf lorsqu’il est identique à l’estimateur pondéré (à un taux d’échantillonnage relatif de 1). En conséquence, la reqm de l’estimateur non pondéré pour la taille de domaine est souvent considérablement plus élevée que celle de l’estimateur pondéré. La figure 3.5 montre que la reqm de l’estimateur non pondéré de la taille de domaine de 50 % pour et est beaucoup plus grande que celle de l’estimateur pondéré pour la plupart des taux d’échantillonnage relatifs (jusqu’à deux fois la reqm de l’estimateur pondéré). La seule exception, c’est lorsque deux estimateurs sont à peu près égaux (répartition presque proportionnelle).
L’estimateur pondéré des tailles de domaine présente donc un avantage considérable par rapport à l’estimateur non pondéré pour tous les mécanismes de données manquantes présentés par L et V qui ne sont pas de type MCAR ou MAR.
Description de la figure 3.5
Figure présentant la racine de l’erreur quadratique moyenne (reqm) pour les estimateurs avec et sans pondération de la taille de domaine de 50 % pour et La reqm est sur l’axe des y, allant de 0 à 1 400 et le taux d’échantillonnage relatif est sur l’axe des x, allant de 0,0 à 3,0. La reqm de l’estimateur non pondéré est beaucoup plus grande que celle de l’estimateur pondéré pour la plupart des taux d’échantillonnage relatifs (jusqu’à deux fois la reqm de l’estimateur pondéré). La seule exception, c’est lorsque deux estimateurs sont à peu près égaux (répartition presque proportionnelle).
Signaler un problème sur cette page
Quelque chose ne fonctionne pas? L'information n'est plus à jour? Vous ne trouvez pas ce que vous cherchez?
S'il vous plaît contactez-nous et nous informer comment nous pouvons vous aider.
- Date de modification :