Ajustements pour la non-réponse dans les plans stratifiés assortis de modèles aux spécifications erronées 3. Résultats

La simulation a été effectuée dans le logiciel R (R Development Core Team 2011) à partir de 10 000 tirages (L et V en ont utilisé 1 000). Nous avons évalué les estimateurs en calculant la racine de l’erreur quadratique moyenne (reqm) et le biais des estimations, le biais et la reqm étant mesurés par les écarts par rapport aux quantités de population comme l’ont fait L et V. Nous avons utilisé la même taille d’échantillon total (312) que dans la simulation, mais avec différentes répartitions de l’échantillon ou différents taux d’échantillonnage relatifs entre les strates. Nous avons reproduit l’ensemble des 25 configurations de L et V; les résultats sont présentés dans le tableau S-1 des documents supplémentaires. Le tableau S-2 des documents supplémentaires comprend aussi les 25 configurations, mais présente le biais relatif des moyennes et des totaux avec et sans pondération, ainsi que les ratios des variances et des reqm des estimations non pondérées à ceux des estimations pondérées. Le biais relatif et les ratios des variances et des reqm facilitent les comparaisons entre les estimations. Les documents supplémentaires comprennent les erreurs de simulation estimées, qui sont toutes relativement petites. Pour les estimateurs et les taux d’échantillonnage donnés par L et V, nos résultats correspondent aux valeurs publiées, compte tenu des erreurs de simulation. Commençons par examiner le biais des estimateurs.

3.1 Biais

Il y a deux situations pour lesquelles il existe des résultats théoriques bien connus (Little et Rubin 2002). La première est lorsque la propension à répondre est la même dans toutes les cellules MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbbjxAHX garmWu51MyVXgaruWqVvNCPvMCG4uz3bqefqvATv2CG4uz3bIuV1wy Ubqee0evGueE0jxyaibaiuYhf9irVeeu0dXdh9vqqj=hEeeu0dc9q8 arFj0xb9arFfea0hXxe9vqai=hGCQ8k8xqFbc9s8vqLq=pb9qr0dd9 q8qi0lf9Fve9Fve9FXqaaeaabaGaaiaacaqaaeaadaabauaaaOqaaG abaKqzGfaeaaaaaaaaa8qacaWFtacaaa@3911@ les données manquent complètement au hasard (MCAR, de l’anglais missing completely at random); ces données de type MCAR correspondent au modèle [ ϕ ] R = ( β c = 0 , β z = 0 , β c z = 0 ) MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaadaWadaqaai abew9aMbGaay5waiaaw2faamaaCaaaleqabaGaamOuaaaakiabg2da 9maabmaabaGaeqOSdi2aaSbaaSqaaiaadogaaeqaaOGaeyypa0JaaG imaiaacYcacqaHYoGydaWgaaWcbaGaamOEaaqabaGccqGH9aqpcaaI WaGaaiilaiabek7aInaaBaaaleaacaWGJbGaamOEaaqabaGccqGH9a qpcaaIWaaacaGLOaGaayzkaaaaaa@4FAA@ de la dernière ligne du tableau 2.2. Lorsqu’on a des données de type MCAR, les facteurs d’ajustement non pondéré et pondéré ont la même espérance mathématique, et tous deux produisent des estimations non biaisées. Les résultats de la simulation présentés dans le tableau V de l’article de L et V (lignes 5, 10, 15, 20 et 25) confirment cette observation. La deuxième situation est lorsque la propension à répondre est indépendante de la strate, ce qui correspond à des données qui manquent au hasard (MAR, de l’anglais missing at random) selon le modèle de réponse [ ϕ ] C = ( β c = 2 , β z = 0 , β c z = 0 ) MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaadaWadaqaai abew9aMbGaay5waiaaw2faamaaCaaaleqabaGaam4qaaaakiabg2da 9maabmaabaGaeqOSdi2aaSbaaSqaaiaadogaaeqaaOGaeyypa0JaaG OmaiaacYcacqaHYoGydaWgaaWcbaGaamOEaaqabaGccqGH9aqpcaaI WaGaaiilaiabek7aInaaBaaaleaacaWGJbGaamOEaaqabaGccqGH9a qpcaaIWaaacaGLOaGaayzkaaaaaa@4F9D@ de la troisième ligne du tableau 2.2. Nous considérons ces situations comme étant de type MAR parce que le biais de l’estimateur ne dépend pas de l’utilisation de données à propos de Z dans le modèle. Encore une fois, les estimations avec et sans pondération sont toutes deux sans biais, et les ajustements ont la même espérance mathématique. Les résultats de la simulation présentés dans le tableau V de L et V (lignes 3, 8, 13, 18 et 23) confirment cette observation de façon empirique.

Afin de nous concentrer sur la situation dans laquelle les spécifications du modèle sont erronées, nous ne présentons pas les résultats des simulations pour les situations de type MCAR et MAR dans le présent article; ces résultats sont toutefois présentés dans les documents supplémentaires. Il importe de souligner que même si les ajustements avec et sans pondération pour les modèles de type MCAR et MAR ont la même espérance mathématique, ils ne sont pas identiques. Après avoir simulé les deux approches en vertu de modèles de type MAR, Sukasih et coll. (2009) se sont prononcés en faveur d’une approche de pondération, principalement en raison de la variabilité moindre des estimations des totaux pour l’ensemble des simulations, même si les deux approches donnent des résultats non biaisés.

Comme il est précisé plus haut, les taux d’échantillonnage varient dans le cadre de nos simulations, tandis que la taille globale de l’échantillon est fixée à 312; L et V ont utilisé un taux d’échantillonnage unique. Quand les taux d’échantillonnage sont les mêmes dans toutes les strates (c’est-à-dire que l’échantillon est réparti proportionnellement dans toutes les strates), les poids d’échantillonnage sont les mêmes pour chaque strate et, en conséquence, les estimateurs avec et sans pondération sont identiques. Le taux d’échantillonnage selon une répartition proportionnelle joue un rôle important dans notre présentation, parce que les deux estimations doivent converger à cette étape.

Le graphique présenté à la figure 3.1 (à gauche) illustre les résultats de la simulation pour le biais des estimateurs avec et sans pondération du total pour [ C Z ] Y MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaadaWadaqaai aadoeacaWGAbaacaGLBbGaayzxaaWaaWbaaSqabeaacaWGzbaaaaaa @3D04@ et [ C + Z ] R . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaadaWadaqaai aadoeacqGHRaWkcaWGAbaacaGLBbGaayzxaaWaaWbaaSqabeaacaWG sbaaaOGaaiOlaaaa@3E9B@ Nous avons choisi cette configuration (ligne 2 dans les tableaux de L et V) parce que les simulations de L et V montrent que la moyenne non pondérée est assortie d’un biais et d’une reqm plus faibles que la moyenne pondérée dans ce cas particulier. L’axe horizontal indique le taux d’échantillonnage relatif calculé comme étant le ratio du taux d’échantillonnage de Z = 0 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWGAbGaey ypa0JaaGimaaaa@3AFF@ à Z = 1 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWGAbGaey ypa0JaaGymaaaa@3B00@ ou N 0 n 0 1 / ( N 1 n 1 1 ) . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaadaWcgaqaai aad6eadaWgaaWcbaGaaGimaaqabaGccaWGUbWaa0baaSqaaiaaicda aeaacqGHsislcaaIXaaaaaGcbaWaaeWaaeaacaWGobWaaSbaaSqaai aaigdaaeqaaOGaamOBamaaDaaaleaacaaIXaaabaGaeyOeI0IaaGym aaaaaOGaayjkaiaawMcaaaaacaGGUaaaaa@4551@ Le taux d’échantillonnage relatif employé par L et V était d’environ 2,25. On voit tout de suite que le biais de l’estimateur pondéré est pratiquement constant pour les différents taux d’échantillonnage, alors que le biais de l’estimateur non pondéré varie considérablement selon le taux d’échantillonnage relatif. Pour certains taux d’échantillonnage, le biais des estimateurs non pondérés du total peut être plus de deux fois celui de l’estimateur pondéré. Les deux types d’estimateur sont biaisés pour presque tous les taux d’échantillonnage relatifs, et l’estimateur qui a le biais le plus faible dépend du taux d’échantillonnage relatif. Lorsque les taux d’échantillonnage relatifs sont égaux (répartition proportionnelle), les estimateurs sans pondération et avec pondération ont le même biais, comme prévu. Cependant, dans la pratique, il n’est généralement pas possible de reconnaître l’effet du taux d’échantillonnage sur le biais et de choisir à l’avance la méthode d’ajustement qui permet de réduire le biais pour un échantillon particulier.

Figure 3.1 de l'article 14546

Description de la figure 3.1

Figure présentant le biais des estimateurs avec et sans pondération pour le modèle de population [ CZ ] Y MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpepeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuj0lXxdrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciGacaGaaeqabaWaaeaaeaaakeaadaWadaqaai aadoeacaWGAbaacaGLBbGaayzxaaWaaWbaaSqabeaacaWGzbaaaaaa @3CF3@  et le modèle de propension à répondre [ C+Z ] R . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpepeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuj0lXxdrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciGacaGaaeqabaWaaeaaeaaakeaadaWadaqaai aadoeacqGHRaWkcaWGAbaacaGLBbGaayzxaaWaaWbaaSqabeaacaWG sbaaaOGaaiOlaaaa@3E8A@  Il y a deux graphiques, un pour le total et un pour la moyenne. Pour le total, le biais sur l’axe des y va de -1 000 à 1 500 et le taux d’échantillonnage relatif sur l’axe des x va de 0,0 à 3,0. Le biais de l’estimateur pondéré est pratiquement constant pour les différents taux d’échantillonnage, alors que le biais de l’estimateur non pondéré varie considérablement selon le taux d’échantillonnage relatif. Pour la moyenne, le biais sur l’axe des y va de 0,0 à 0,08 et le taux d’échantillonnage relatif sur l’axe des x va de 0,0 à 3,0. Le biais pour l’estimateur pondéré est encore une fois indépendant du taux d’échantillonnage relatif, alors que le biais de l’estimateur non pondéré varie en fonction du taux d’échantillonnage.

Pour comprendre ces résultats, nous avons appliqué des approximations standard qui se vérifient raisonnablement bien dans ce cas (c’est-à-dire E ( η 1 ) E 1 ( η ) ) . MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaadaqacaqaai aadweadaqadaqaaiabeE7aOnaaCaaaleqabaGaeyOeI0IaaGymaaaa aOGaayjkaiaawMcaaiabgIKi7kaadweadaahaaWcbeqaaiabgkHiTi aaigdaaaGcdaqadaqaaiabeE7aObGaayjkaiaawMcaaaGaayzkaaGa aiOlaaaa@4746@ La valeur prévue approximative pour l’estimateur pondéré est

E y ^ t r p z c N c ( z ϕ c z N c z ) ϕ c z Y c z , ( 3.1 ) MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWGfbGabm yEayaajaWaaSbaaSqaaiaadshacaWGYbGaamiCaaqabaGccqGHijYU daaeqaqaamaaqababaWaaSaaaeaacaWGobWaaSbaaSqaaiaadogaae qaaaGcbaWaaeWaaeaadaaeqaqaaiabew9aMnaaBaaaleaacaWGJbGa amOEaaqabaGccaWGobWaaSbaaSqaaiaadogacaWG6baabeaaaeaaca WG6baabeqdcqGHris5aaGccaGLOaGaayzkaaaaaiabew9aMnaaBaaa leaacaWGJbGaamOEaaqabaGccaWGzbWaaSbaaSqaaiaadogacaWG6b aabeaaaeaacaWGJbaabeqdcqGHris5aaWcbaGaamOEaaqab0Gaeyye IuoakiaacYcacaaMf8UaaGzbVlaaywW7caaMf8UaaGzbVlaacIcaca aIZaGaaiOlaiaaigdacaGGPaaaaa@64B4@

Y c z MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWGzbWaaS baaSqaaiaadogacaWG6baabeaaaaa@3B51@ est le total de population de la cellule c z . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWGJbGaam OEaiaac6caaaa@3AF9@ De même, la valeur prévue approximative pour l’estimateur non pondéré est

E y ^ t r n p z c ( z N z n z 1 N c z ) ( z ϕ c z N z n z 1 N c z ) ϕ c z Y c z . ( 3.2 ) MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWGfbGabm yEayaajaWaaSbaaSqaaiaadshacaWGYbGaamOBaiaadchaaeqaaOGa eyisIS7aaabeaeaadaaeqaqaamaalaaabaWaaeWaaeaadaaeqaqaai aad6eadaWgaaWcbaGaamOEaaqabaGccaWGUbWaa0baaSqaaiaadQha aeaacqGHsislcaaIXaaaaOGaamOtamaaBaaaleaacaWGJbGaamOEaa qabaaabaGaamOEaaqab0GaeyyeIuoaaOGaayjkaiaawMcaaaqaamaa bmaabaWaaabeaeaacqaHvpGzdaWgaaWcbaGaam4yaiaadQhaaeqaaO GaamOtamaaBaaaleaacaWG6baabeaakiaad6gadaqhaaWcbaGaamOE aaqaaiabgkHiTiaaigdaaaGccaWGobWaaSbaaSqaaiaadogacaWG6b aabeaaaeaacaWG6baabeqdcqGHris5aaGccaGLOaGaayzkaaaaaiab ew9aMnaaBaaaleaacaWGJbGaamOEaaqabaGccaWGzbWaaSbaaSqaai aadogacaWG6baabeaaaeaacaWGJbaabeqdcqGHris5aaWcbaGaamOE aaqab0GaeyyeIuoakiaac6cacaaMf8UaaGzbVlaaywW7caaMf8UaaG zbVlaacIcacaaIZaGaaiOlaiaaikdacaGGPaaaaa@76BB@

Si ϕ c z MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacqaHvpGzda WgaaWcbaGaam4yaiaadQhaaeqaaaaa@3C3B@ est une constante (MCAR) ou ϕ c z MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacqaHvpGzda WgaaWcbaGaam4yaiaadQhaaeqaaaaa@3C3B@ est une constante dans les cellules de pondération (MAR), alors les deux estimateurs ne sont pas biaisés à cet ordre d’approximation et concordent avec la théorie connue. Lorsque les taux d’échantillonnage sont les mêmes dans toutes les strates, les deux estimateurs ont la même valeur prévue (comme il est précisé plus haut, ils sont identiques dans ce cas). Surtout, ces approximations montrent que l’espérance mathématique de l’estimateur pondéré ne dépend pas du taux d’échantillonnage, mais que celle de l’estimateur non pondéré, elle, en dépend. Cela explique les courbes illustrées à la figure 3.1.

Quelques détails des estimations de la simulation pour cette configuration sont présentés dans le tableau 3.1 pour certains taux d’échantillonnage. Comme il est indiqué ci-dessus, les résultats complets de la simulation pour toutes les configurations et tous les taux d’échantillonnage utilisés pour dessiner les graphiques se trouvent dans les documents supplémentaires. Ces documents comprennent les biais relatifs, les ratios des variances et les ratios des reqm, qui constituent de meilleurs indicateurs pour évaluer l’incidence des ajustements sur les estimations. Nous avons constaté que pour toutes les configurations dont les estimations des totaux sont biaisées, les biais pour l’estimateur pondéré sont inférieurs d’un côté du taux d’échantillonnage relatif de 1, et supérieurs de l’autre côté. Toutes les configurations sont assorties d’un biais à peu près constant pour l’estimateur pondéré du total pour tous les taux d’échantillonnage relatifs, mais le biais de l’estimateur non pondéré varie en fonction du taux d’échantillonnage relatif.

Examinons maintenant les moyennes estimées  MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbbjxAHX garmWu51MyVXgaruWqVvNCPvMCG4uz3bqefqvATv2CG4uz3bIuV1wy Ubqee0evGueE0jxyaibaiuYhf9irVeeu0dXdh9vqqj=hEeeu0dc9q8 arFj0xb9arFfea0hXxe9vqai=hGCQ8k8xqFbc9s8vqLq=pb9qr0dd9 q8qi0lf9Fve9Fve9FXqaaeaabaGaaiaacaqaaeaadaabauaaaOqaaG abaKqzGfaeaaaaaaaaa8qacaWFtacaaa@3911@ les seuls estimateurs examinés par L et V. Le graphique de droite de la figure 3.1 montre que le biais pour l’estimateur pondéré est encore une fois indépendant du taux d’échantillonnage relatif, alors que le biais de l’estimateur non pondéré varie en fonction du taux d’échantillonnage. L et V ont utilisé un taux d’échantillonnage de 2,25, ce qui explique pourquoi ils ont trouvé que l’estimateur non pondéré était associé à un biais inférieur pour la moyenne dans le cadre de leur exercice de simulation. Il importe de souligner deux choses à cet égard. D’une part, les biais pour les moyennes pour les deux méthodes d’ajustement sont tous relativement faibles, particulièrement par rapport aux biais relatifs potentiels des totaux obtenus à l’aide de l’estimateur non pondéré (graphique de gauche). D’autre part, il n’y a aucun moyen de déterminer si une estimation particulière tomberait du côté gauche ou du côté droit du taux d’échantillonnage relatif de 1. Le tableau 3.1 montre les biais estimés pour cette configuration.

Les graphiques illustrent aussi une relation quelque peu étonnante : les taux d’échantillonnage relatifs pour lesquels l’estimateur non pondéré du total est assorti d’un biais inférieur sont ceux pour lesquels l’estimateur non pondéré de la moyenne est assorti d’un biais supérieur. En d’autres termes, les moyennes se comportent différemment des totaux parce que la moyenne non pondérée est un ratio alors que la moyenne pondérée n’en est pas un. En conséquence, le biais relatif (br = biais/estimation) de l’estimateur non pondéré de la moyenne n’est pas égal au biais relatif de l’estimateur non pondéré du total (la relation est vérifiée pour l’estimateur pondéré). On peut approximer le biais relatif comme suit :

b r ( y ¯ ^ t r n p ) 1 + b r ( y ^ t r n p ) 1 + b r ( N ^ t r n p ) , MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWGIbGaam OCamaabmaabaGabmyEayaaryaajaWaaSbaaSqaaiaadshacaWGYbGa amOBaiaadchaaeqaaaGccaGLOaGaayzkaaGaeyisIS7aaSaaaeaaca aIXaGaey4kaSIaamOyaiaadkhadaqadaqaaiqadMhagaqcamaaBaaa leaacaWG0bGaamOCaiaad6gacaWGWbaabeaaaOGaayjkaiaawMcaaa qaaiaaigdacqGHRaWkcaWGIbGaamOCamaabmaabaGabmOtayaajaWa aSbaaSqaaiaadshacaWGYbGaamOBaiaadchaaeqaaaGccaGLOaGaay zkaaaaaiaacYcaaaa@577F@

N ^ t r n p MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaaceWGobGbaK aadaWgaaWcbaGaamiDaiaadkhacaWGUbGaamiCaaqabaaaaa@3D47@ est l’estimateur non pondéré du total (où y i = 1 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWG5bWaaS baaSqaaiaadMgaaeqaaOGaeyypa0JaaGymaaaa@3C43@ pour toutes les valeurs de i ) . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaadaqacaqaai aadMgaaiaawMcaaiaac6caaaa@3AC8@ Cette approximation se vérifie raisonnablement bien dans cette situation, puisque cov ( y ¯ ^ t r n p , N ^ t r n p ) / E ( N ^ t r n p ) 0. MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaadaWcgaqaai GacogacaGGVbGaaiODamaabmaabaGabmyEayaaryaajaWaaSbaaSqa aiaadshacaWGYbGaamOBaiaadchaaeqaaOGaaiilaiqad6eagaqcam aaBaaaleaacaWG0bGaamOCaiaad6gacaWGWbaabeaaaOGaayjkaiaa wMcaaaqaaiaadweadaqadaqaaiqad6eagaqcamaaBaaaleaacaWG0b GaamOCaiaad6gacaWGWbaabeaaaOGaayjkaiaawMcaaaaacqGHijYU caaIWaGaaiOlaaaa@520A@ Le biais relatif de la moyenne non pondérée diminue donc quand les biais du numérateur et du dénominateur sont positivement corrélés.

Examinons maintenant les estimations de domaine  MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbbjxAHX garmWu51MyVXgaruWqVvNCPvMCG4uz3bqefqvATv2CG4uz3bIuV1wy Ubqee0evGueE0jxyaibaiuYhf9irVeeu0dXdh9vqqj=hEeeu0dc9q8 arFj0xb9arFfea0hXxe9vqai=hGCQ8k8xqFbc9s8vqLq=pb9qr0dd9 q8qi0lf9Fve9Fve9FXqaaeaabaGaaiaacaqaaeaadaabauaaaOqaaG abaKqzGfaeaaaaaaaaa8qacaWFtacaaa@3911@ que L et V n’ont pas étudiées. Les biais pour les estimateurs du total de domaine avec et sans pondération et la relation avec les biais des estimateurs non pondérés qui varient en fonction du taux d’échantillonnage relatif sont les mêmes que ceux qui ont été observés pour les totaux globaux (voir le tableau 3.1), parce que les totaux de domaine demeurent des totaux et que les approximations (3.1) et (3.2) continuent de s’appliquer. Les moyennes de domaine sont aussi présentées dans le tableau, et elles aussi suivent la tendance des biais illustrée à la figure 3.1 pour la moyenne de l’échantillon complet. Il importe de souligner que les biais relatifs pour les estimations de la moyenne (globale et pour chaque domaine) ne varient pas beaucoup, la plupart d’entre eux se trouvant entre 5 % et 7 %.

Tableau 3.1
Biais (facteur 10 000), racine de l’erreur quadratique moyenne (facteur 10 000) et variance des estimateurs avec et sans pondération des moyennes et du total de l’échantillon complet et des domaines, configuration [CZ]Y, [C+Z]R selon divers taux d’échantillonnage
Sommaire du tableau
Le tableau montre les résultats de Biais (facteur 10 000) Caractéristique, Domaine, Ajustement et Taux d’échantillonnage relatif(figurant comme en-tête de colonne).
  Caractéristique Domaine Ajustement Taux d’échantillonnage relatif
0,30 0,44 1,00 2,25 3,30
Biais Moyenne Complet trnp 515 491 404 301 248
trp 398 403 404 404 394
50 % trnp 513 501 411 307 257
trp 397 414 410 410 401
25 % trnp 523 498 407 298 252
trp 408 411 407 400 395
Total Complet trnp -419 -184 401 1 058 1 335
trp 398 403 404 404 394
50 % trnp -214 -89 205 535 673
trp 194 205 206 207 200
25 % trnp -107 -48 101 264 335
trp 97 98 102 101 100
reqm Moyenne Complet trnp 643 614 546 536 566
trp 553 547 545 587 616
50 % trnp 758 726 669 699 778
trp 687 671 669 728 794
25 % trnp 949 898 863 952 1 062
trp 895 859 863 955 1 041
Total Complet trnp 537 376 543 1 183 1 485
trp 553 547 545 587 616
50 % trnp 371 311 393 714 888
trp 399 392 394 449 494
25 % trnp 255 233 282 451 553
trp 285 273 283 328 365
Variance Moyenne Complet trnp 15 14 14 20 26
trp 15 14 14 18 22
50 % trnp 32 28 28 40 54
trp 32 28 28 37 47
25 % trnp 64 57 59 83 107
trp 64 58 59 76 93
Total Complet trnp 11 11 14 28 43
trp 15 14 14 18 22
50 % trnp 9 9 11 23 34
trp 12 11 11 16 21
25 % trnp 5 5 7 14 20
trp 7 7 7 10 12

3.2 Racine de l’erreur quadratique moyenne (reqm)

Malgré la petite taille de l’échantillon utilisé pour les simulations (312 avant la non-réponse) et le biais relatif plutôt modeste des estimations pour les moyennes, le biais demeure une composante importante de la reqm. Par exemple, le biais représente 56 % (sans pondération) à 69 % (avec pondération) de la reqm pour l’estimation de la moyenne selon la configuration [ C Z ] Y MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaadaWadaqaai aadoeacaWGAbaacaGLBbGaayzxaaWaaWbaaSqabeaacaWGzbaaaaaa @3D04@ et [ C + Z ] R MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaadaWadaqaai aadoeacqGHRaWkcaWGAbaacaGLBbGaayzxaaWaaWbaaSqabeaacaWG sbaaaaaa@3DDF@ et le même taux d’échantillonnage que L et V. Lorsque l’échantillon est plus important, comme c’est généralement le cas pour les grandes enquêtes par sondage, le biais est souvent la composante dominante de la reqm (Brick 2013).

La figure 3.2 montre la reqm pour le total estimé (graphique de gauche) et pour la moyenne (graphique de droite) selon la même configuration que pour la figure précédente. La reqm pour le total pour l’estimateur pondéré est approximativement constante et inférieure à la reqm pour l’estimateur non pondéré, sauf lorsque le taux d’échantillonnage relatif est d’environ 0,5, ce qui correspond à la région où le biais est très faible pour l’estimateur non pondéré (voir la figure 3.1). Toutefois, lorsque le taux d’échantillonnage relatif est supérieur à un, la reqm pour l’estimateur non pondéré du total est beaucoup plus grande que la reqm pour l’estimateur pondéré (jusqu’à deux fois plus élevée pour certains taux d’échantillonnage). En revanche, pour les estimations de la moyenne illustrées à la figure 3.2 (graphique de droite), les reqm des estimateurs avec et sans pondération sont du même ordre de grandeur, et la symétrie autour du taux de répartition proportionnelle demeure. Même si L et V soulignent que l’estimateur non pondéré a une reqm inférieure (au taux d’échantillonnage relatif de 2,25), nous considérons les reqm des deux estimateurs comme étant approximativement égales pour tous les taux d’échantillonnage relatifs.

Figure 3.2 de l'article 14546

Description de la figure 3.2

Figure présentant la racine de l’erreur quadratique moyenne pour les estimateurs avec et sans pondération pour [ CZ ] Y MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpepeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuj0lXxdrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciGacaGaaeqabaWaaeaaeaaakeaadaWadaqaai aadoeacaWGAbaacaGLBbGaayzxaaWaaWbaaSqabeaacaWGzbaaaaaa @3CF3@  et [ C+Z ] R . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpepeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuj0lXxdrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciGacaGaaeqabaWaaeaaeaaakeaadaWadaqaai aadoeacqGHRaWkcaWGAbaacaGLBbGaayzxaaWaaWbaaSqabeaacaWG sbaaaOGaaiOlaaaa@3E8A@  Il y a deux graphiques, un pour le total et un pour la moyenne. Pour le total, la reqm (en millions) sur l’axe des y va de 0 à 20 et le taux d’échantillonnage relatif sur l’axe des x va de 0,0 à 3,0. La reqm pour l’estimateur pondéré est approximativement constante et inférieure à la reqm pour l’estimateur non pondéré, sauf lorsque le taux d’échantillonnage relatif est d’environ 0,5. Toutefois, lorsque le taux d’échantillonnage relatif est supérieur à un, la reqm pour l’estimateur non pondéré du total est beaucoup plus grande que la reqm pour l’estimateur pondéré. Pour la moyenne, la reqm sur l’axe des y va de 0 à 1 000 et le taux d’échantillonnage relatif sur l’axe des x va de 0,0 à 3,0. Les reqm des estimateurs avec et sans pondération sont du même ordre de grandeur, et la symétrie autour du taux de répartition proportionnelle demeure.

La figure 3.3 indique la reqm pour la moyenne estimée pour un domaine de 50 % (graphique de gauche) et un domaine de 25 % (graphique de droite), encore une fois pour [ C Z ] Y MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaadaWadaqaai aadoeacaWGAbaacaGLBbGaayzxaaWaaWbaaSqabeaacaWGzbaaaaaa @3D04@ et [ C + Z ] R . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaadaWadaqaai aadoeacqGHRaWkcaWGAbaacaGLBbGaayzxaaWaaWbaaSqabeaacaWG sbaaaOGaaiOlaaaa@3E9B@ L’examen des trois graphiques de la reqm (pour la moyenne globale, la moyenne pour un domaine de 50 % et la moyenne pour un domaine de 25 %) révèle l’effet de l’estimateur par ratio. À mesure que la taille du domaine passe de 100 % à 25 %, l’estimateur pondéré ressemble de plus en plus à un estimateur par ratio inconditionnel et la corrélation entre le numérateur et le dénominateur réduit la reqm de l’estimation. En conséquence, les reqm des estimateurs de domaine avec et sans pondération sont très semblables. Même si l’estimateur pondéré est assorti d’une reqm inférieure à chacun des taux d’échantillonnage relatifs comparativement à l’estimateur non pondéré pour la moyenne pour un domaine de 25 %, les deux estimateurs sont essentiellement équivalents en termes de reqm. Le léger avantage de l’estimateur non pondéré qu’ont souligné L et V pour la moyenne pour l’ensemble de la population selon cette configuration disparaît pour les moyennes de domaine où l’estimateur pondéré est aussi un estimateur par ratio.

Figure 3.3 de l'article 14546

Description de la figure 3.3

Figure présentant la racine de l’erreur quadratique moyenne pour les estimateurs avec et sans pondération pour [ CZ ] Y MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpepeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuj0lXxdrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciGacaGaaeqabaWaaeaaeaaakeaadaWadaqaai aadoeacaWGAbaacaGLBbGaayzxaaWaaWbaaSqabeaacaWGzbaaaaaa @3CF3@  et [ C+Z ] R . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpepeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuj0lXxdrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciGacaGaaeqabaWaaeaaeaaakeaadaWadaqaai aadoeacqGHRaWkcaWGAbaacaGLBbGaayzxaaWaaWbaaSqabeaacaWG sbaaaOGaaiOlaaaa@3E8A@  Il y a deux graphiques, un pour la moyenne pour un domaine de 50 % et un pour la moyenne pour un domaine de 25 %. Pour les deux graphiques, la reqm sur l’axe des y va de 0 à 1 400 et le taux d’échantillonnage relatif sur l’axe des x va de 0,0 à 3,0. Les reqm des estimateurs de domaine avec et sans pondération sont très semblables. Même si l’estimateur pondéré est assorti d’une reqm inférieure à chacun des taux d’échantillonnage relatifs comparativement à l’estimateur non pondéré pour la moyenne pour un domaine de 25 %, les deux estimateurs sont essentiellement équivalents en termes de reqm.

3.3 Variance

Quand les facteurs d’ajustement pour la non-réponse sont fondés sur un petit nombre de répondants, il est possible qu’ils accroissent la variance des estimations (Kalton 1983; Tremblay 1986). L et V sont d’avis que la pondération des facteurs d’ajustement pour la non-réponse pourrait entraîner une inflation de la variance supérieure à celle que l’on obtient lorsqu’on utilise des facteurs non pondérés. Les figures ci-dessus montrent que cela ne s’est pas produit dans le cadre de notre exercice de simulation. La figure 3.4 illustre le ratio de la variance de l’estimateur non pondéré à la variance de l’estimation pondérée pour la moyenne et le total pour l’ensemble de la population et pour le total du domaine de 50 % selon la configuration [ C Z ] Y MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaadaWadaqaai aadoeacaWGAbaacaGLBbGaayzxaaWaaWbaaSqabeaacaWGzbaaaaaa @3D04@ et [ C + Z ] R . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaadaWadaqaai aadoeacqGHRaWkcaWGAbaacaGLBbGaayzxaaWaaWbaaSqabeaacaWG sbaaaOGaaiOlaaaa@3E9B@ Pour la moyenne, le ratio des variances est presque égal à un pour tous les taux d’échantillonnage relatifs; il n’y a pas d’inflation de la variance pour l’estimateur pondéré comparativement à l’estimateur non pondéré. En ce qui concerne les totaux, le ratio est inférieur à un pour les taux d’échantillonnage relatifs de moins de 1, et supérieur à un pour les taux d’échantillonnage relatifs de plus de 1. Cette relation se vérifie aussi pour le total du domaine de 50 %. Ces résultats semblent indiquer que la pondération de l’ajustement n’est pas une source de facteurs importants susceptibles de faire augmenter la variance des estimations. Par mesure de prudence, il convient d’examiner l’importance des facteurs de non-réponse, qu’ils soient ou non pondérés.

Figure 3.4 de l'article 14546

Description de la figure 3.4

Figure présentant les ratios des variances des estimations non pondérées aux estimations pondérées de la moyenne, du total global et du total pour un domaine de 50 % selon [ CZ ] Y MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpepeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuj0lXxdrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciGacaGaaeqabaWaaeaaeaaakeaadaWadaqaai aadoeacaWGAbaacaGLBbGaayzxaaWaaWbaaSqabeaacaWGzbaaaaaa @3CF3@  et [ C+Z ] R . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpepeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuj0lXxdrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciGacaGaaeqabaWaaeaaeaaakeaadaWadaqaai aadoeacqGHRaWkcaWGAbaacaGLBbGaayzxaaWaaWbaaSqabeaacaWG sbaaaOGaaiOlaaaa@3E8A@  Le ratio des variances est sur l’axe des y, allant de 0,0 à 2,0 et le taux d’échantillonnage relatif est sur l’axe des x, allant de 0,0 à 3,5. Pour la moyenne, le ratio des variances est presque égal à un pour tous les taux d’échantillonnage relatifs; il n’y a pas d’inflation de la variance pour l’estimateur pondéré comparativement à l’estimateur non pondéré. En ce qui concerne les totaux, le ratio est inférieur à un pour les taux d’échantillonnage relatifs de moins de 1, et supérieur à un pour les taux d’échantillonnage relatifs de plus de 1. Cette relation se vérifie aussi pour le total du domaine de 50 %.

Le tableau 3.2 présente les résultats de simulation pour une autre configuration, [ C Z ] Y MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaadaWadaqaai aadoeacaWGAbaacaGLBbGaayzxaaWaaWbaaSqabeaacaWGzbaaaaaa @3D04@ et [ C Z ] R , MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaadaWadaqaai aadoeacaWGAbaacaGLBbGaayzxaaWaaWbaaSqabeaacaWGsbaaaOGa aiilaaaa@3DB7@ qui était favorable à l’ajustement non pondéré dans le cadre de l’étude de L et V (première ligne de leurs tableaux), alors que le tableau 3.3 présente les résultats de simulation pour la configuration [ C + Z ] Y MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaadaWadaqaai aadoeacqGHRaWkcaWGAbaacaGLBbGaayzxaaWaaWbaaSqabeaacaWG zbaaaaaa@3DE6@ et [ C + Z ] R , MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaadaWadaqaai aadoeacqGHRaWkcaWGAbaacaGLBbGaayzxaaWaaWbaaSqabeaacaWG sbaaaOGaaiilaaaa@3E99@ qui était favorable à l’ajustement pondéré. Les résultats pour ces deux configurations montrent les mêmes tendances générales présentées ci-dessus pour [ C Z ] Y MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaadaWadaqaai aadoeacaWGAbaacaGLBbGaayzxaaWaaWbaaSqabeaacaWGzbaaaaaa @3D04@ et [ C + Z ] R . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaadaWadaqaai aadoeacqGHRaWkcaWGAbaacaGLBbGaayzxaaWaaWbaaSqabeaacaWG sbaaaOGaaiOlaaaa@3E9B@

Tableau 3.2
Biais (facteur 10 000), racine de l’erreur quadratique moyenne (facteur 10 000) et variance des estimateurs pondérés et non pondérés des moyennes et du total pour l’échantillon complet et pour les domaines, configuration [CZ]Y, [CZ]R selon divers taux d’échantillonnage
Sommaire du tableau
Le tableau montre les résultats de Biais (facteur 10 000) Caractéristique, Domaine, Ajustement et Taux d’échantillonnage relatif(figurant comme en-tête de colonne).
  Caractéristique Domaine Ajustement Taux d’échantillonnage relatif
0,30 0,44 1,00 2,25 3,30
Biais Moyenne Complet trnp 329 329 289 255 237
trp 294 299 289 298 298
50 % trnp 334 341 293 251 238
trp 299 311 293 294 298
25 % trnp 336 344 306 257 247
trp 302 314 306 299 307
Total Complet trnp -412 -187 287 732 901
trp 294 299 289 298 298
50 % trnp -209 -91 145 367 455
trp 143 152 146 149 154
25 % trnp -103 -46 72 184 230
trp 74 76 73 75 79
reqm Moyenne Complet trnp 530 507 476 501 533
trp 505 487 476 520 554
50 % trnp 684 653 616 664 732
trp 666 638 616 674 740
25 % trnp 911 859 832 920 1 016
trp 900 849 832 920 1 011
Total Complet trnp 550 395 474 886 1 078
trp 505 487 476 520 554
50 % trnp 385 326 373 575 696
trp 394 375 373 425 475
25 % trnp 263 244 278 390 464
trp 285 274 278 321 361
Variance Moyenne Complet trnp 17 15 14 19 23
trp 17 15 14 18 22
50 % trnp 36 31 30 38 48
trp 36 31 30 37 46
25 % trnp 73 63 61 79 98
trp 73 63 61 76 94
Total Complet trnp 14 12 14 25 35
trp 17 15 14 18 22
50 % trnp 11 10 12 20 28
trp 14 12 12 16 20
25 % trnp 6 6 7 12 16
trp 8 7 7 10 13
Tableau 3.3
Biais (facteur 10 000), racine de l’erreur quadratique moyenne (facteur 10 000) et variance des estimateurs pondérés et non pondérés des moyennes et du total pour l’échantillon complet et pour les domaines, configuration [C+Z]Y, [C+Z]R selon divers taux d’échantillonnage
Sommaire du tableau
Le tableau montre les résultats de Biais (facteur 10 000) Caractéristique, Domaine, Ajustement et Taux d’échantillonnage relatif(figurant comme en-tête de colonne).
  Caractéristique Domaine Ajustement Taux d’échantillonnage relatif
0,30 0,44 1,00 2,25 3,30
Biais Moyenne Complet trnp 763 735 654 566 529
trp 665 661 654 654 652
50 % trnp 773 737 653 564 532
trp 677 664 653 651 656
25 % trnp 773 739 659 574 513
trp 679 668 659 660 636
Total Complet trnp -272 -8 651 1 411 1 744
trp 665 661 654 654 652
50 % trnp -133 -6 326 711 875
trp 336 328 328 332 328
25 % trnp -69 -2 157 359 438
trp 165 166 158 168 165
reqm Moyenne Complet trnp 854 818 745 699 711
trp 767 753 745 764 790
50 % trnp 951 901 827 816 863
trp 877 845 826 863 912
25 % trnp 1 101 1 046 981 1 023 1 098
trp 1 044 1 004 981 1 045 1 107
Total Complet trnp 426 313 741 1 503 1 868
trp 767 753 745 764 790
50 % trnp 334 300 475 867 1 071
trp 489 470 476 529 575
25 % trnp 246 240 314 530 649
trp 320 316 314 372 409
Variance Moyenne Complet trnp 15 13 13 17 23
trp 15 13 13 16 20
50 % trnp 31 27 26 35 46
trp 31 28 26 32 40
25 % trnp 62 56 54 73 95
trp 63 57 54 67 83
Total Complet trnp 11 10 13 27 45
trp 15 13 13 16 20
50 % trnp 10 9 12 25 39
trp 13 12 12 17 22
25 % trnp 6 6 7 15 23
trp 8 7 8 11 14

3.4 Estimation de la taille de population

Sukasih et coll. (2009) ont étudié un type particulier d’estimation, soit l’estimation du nombre d’unités d’une population. On parle alors d’une estimation de la taille de population où la taille de population n’est qu’une estimation d’un total où y i = 1 MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWG5bWaaS baaSqaaiaadMgaaeqaaOGaeyypa0JaaGymaaaa@3C43@ pour toutes les valeurs de i . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWGPbGaai Olaaaa@3A00@ Elle peut être estimée pour un domaine en affectant à toutes les unités en dehors du domaine la valeur y i = 0. MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWG5bWaaS baaSqaaiaadMgaaeqaaOGaeyypa0JaaGimaiaac6caaaa@3CF4@ Dans le plan d’échantillonnage simple stratifié étudié ici, l’estimateur pondéré reproduit toujours la taille de population totale, N = 10  000, MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaacaWGobGaey ypa0JaaeymaiaabcdacaaMb8UaaeiiaiaabcdacaqGWaGaaeimaiaa bYcaaaa@4095@ mais pas l’estimateur non pondéré. Comme cette situation favorise clairement l’estimateur pondéré, nous examinons plutôt l’estimation de la taille de population d’un domaine.

Supposons que nous voulions estimer le nombre d’unités d’un domaine ou d’un sous-groupe qui ont une valeur en dessous d’un centile défini par une caractéristique pour la population totale (par exemple le revenu médian national). Ce type de statistique est extrêmement important dans les enquêtes, parce que les estimations de la taille de population pour les domaines sont souvent des statistiques clés. Ce type d’estimation peut être, par exemple, le nombre total de personnes ayant un revenu sous le seuil de pauvreté ou de faible revenu (Kovačević et Yung 1997).

Comme l’analyse de L et V ne tenait pas compte des estimations pour les tailles ou les moyennes de domaine, il n’existe pas de variable explicite qui pourrait servir à définir une sous-population. Pour ne pas compliquer l’analyse, nous illustrons le rendement des deux estimateurs à l’aide d’un domaine artificiel créé par la sélection aléatoire de la moitié de la population (c’est-à-dire un domaine de 50 %). Selon une analyse semblable à celle dont il est question dans les sections précédentes, nous avons calculé les totaux et les moyennes pondérés et non pondérés pour le domaine de 50 %. Même si nous connaissons déjà la taille du domaine de l’exemple (c’est-à-dire 50 % de la population totale), l’analyse demeure valide. Dans la pratique, la taille du domaine n’est pas connue.

Quand on estime une statistique comme la taille de population d’un domaine, les deux estimateurs, pondéré et non pondéré, de la taille de population du domaine ne sont pas biaisés lorsque les données sont de type MCAR ou MAR, comme le soulignent Sukasih et coll. (2009). En outre, les reqm des estimateurs avec et sans pondération sont approximativement égales dans ce cas, comme le confirment les simulations.

Si les données ne sont pas de type MAR, la situation peut être très différente. L’estimateur pondéré d’une taille de population de domaine est à peu près non biaisé pour tous les taux d’échantillonnage relatifs et toutes les configurations, alors que l’estimateur non pondéré est toujours biaisé, sauf lorsqu’il est identique à l’estimateur pondéré (à un taux d’échantillonnage relatif de 1). En conséquence, la reqm de l’estimateur non pondéré pour la taille de domaine est souvent considérablement plus élevée que celle de l’estimateur pondéré. La figure 3.5 montre que la reqm de l’estimateur non pondéré de la taille de domaine de 50 % pour [ C Z ] Y MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaadaWadaqaai aadoeacaWGAbaacaGLBbGaayzxaaWaaWbaaSqabeaacaWGzbaaaaaa @3D04@ et [ C + Z ] R MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuD0xXddrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciaacaGaaeqabaWaaeaaeaaakeaadaWadaqaai aadoeacqGHRaWkcaWGAbaacaGLBbGaayzxaaWaaWbaaSqabeaacaWG sbaaaaaa@3DDF@ est beaucoup plus grande que celle de l’estimateur pondéré pour la plupart des taux d’échantillonnage relatifs (jusqu’à deux fois la reqm de l’estimateur pondéré). La seule exception, c’est lorsque deux estimateurs sont à peu près égaux (répartition presque proportionnelle).

L’estimateur pondéré des tailles de domaine présente donc un avantage considérable par rapport à l’estimateur non pondéré pour tous les mécanismes de données manquantes présentés par L et V qui ne sont pas de type MCAR ou MAR.

Figure 3.5 de l'article 14546

Description de la figure 3.5

Figure présentant la racine de l’erreur quadratique moyenne (reqm) pour les estimateurs avec et sans pondération de la taille de domaine de 50 % pour [ CZ ] Y MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpepeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuj0lXxdrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciGacaGaaeqabaWaaeaaeaaakeaadaWadaqaai aadoeacaWGAbaacaGLBbGaayzxaaWaaWbaaSqabeaacaWGzbaaaaaa @3CF3@  et [ C+Z ] R . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpepeea0xe9Lqpe0x e9q8qqvqFr0dXdbrVc=b0P0xb9peuj0lXxdrpe0=1qpeea0=yrVue9 Fve9Fve8meaabaqaciGacaGaaeqabaWaaeaaeaaakeaadaWadaqaai aadoeacqGHRaWkcaWGAbaacaGLBbGaayzxaaWaaWbaaSqabeaacaWG sbaaaOGaaiOlaaaa@3E8A@  La reqm est sur l’axe des y, allant de 0 à 1 400 et le taux d’échantillonnage relatif est sur l’axe des x, allant de 0,0 à 3,0. La reqm de l’estimateur non pondéré est beaucoup plus grande que celle de l’estimateur pondéré pour la plupart des taux d’échantillonnage relatifs (jusqu’à deux fois la reqm de l’estimateur pondéré). La seule exception, c’est lorsque deux estimateurs sont à peu près égaux (répartition presque proportionnelle).

Signaler un problème sur cette page

Quelque chose ne fonctionne pas? L'information n'est plus à jour? Vous ne trouvez pas ce que vous cherchez?

S'il vous plaît contactez-nous et nous informer comment nous pouvons vous aider.

Avis de confidentialité

Date de modification :