Optimisation d’une répartition mixte
Section 4. Application pratique

On s’intéresse au tirage d’un échantillon de 1 000 entreprises de l’industrie selon différents plans de sondages stratifiés afin de connaître le chiffre d’affaires total du secteur. Le champ exact est défini comme suit :

La population initiale est de 102 172 entreprises. De manière générale, les entreprises ayant un fort effectif, par exemple plus de 100, sont souvent enquêtées exhaustivement. On se limite ici à la partie non exhaustive d’une enquête.

Cette population est stratifiée selon deux critères :

  1.    L’APE, au niveau division (deux premiers chiffres).
  2.    La tranche d’effectif, de la façon suivante : 1 à 9 salariés; 10 à 19 salariés; 20 à 49 salariés; 50 salariés ou plus.

ce qui constitue 88 strates, qu’on notera par la suite (A, B) où A est le secteur d’activité et B l’effectif.

On calcule alors les répartitions proportionnelle et de Neyman relative à la dispersion du chiffre d’affaires dans chacune de ces strates, pour n = 1 000. MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamOBaiabg2 da9iaaigdacaaMe8UaaGimaiaaicdacaaIWaGaaiOlaaaa@3D18@ Le tableau 4.1 résume les caractéristiques de ces deux répartitions, ainsi que les strates où la répartition est maximale, toutes deux dans la division 10 (Industries alimentaires).

Tableau 4.1
Distribution des tailles d’échantillon par strate pour les deux répartitions, et tailles d’échantillon pour les strates correspondant aux tailles d’échantillon maximales
Sommaire du tableau
Le tableau montre les résultats de Distribution des tailles d’échantillon par strate pour les deux répartitions. Les données sont présentées selon Répartition (titres de rangée) et Min., Médiane, Max., Strate, Répartition Proportionnelle et Répartition Neyman(figurant comme en-tête de colonne).
Répartition Min. Médiane Max. Strate Répartition Proportionnelle Répartition Neyman
Proportionnelle 1 3 278 (10, 1-9) 278 80
Neyman 1 5 162 (10, 20-49) 18 162

On souhaite choisir la répartition mixte optimale pour le problème présenté au paragraphe précédent. On choisit comme fonction de distance la distance euclidienne. L’équation 2.2 devient donc :

min α [ 0 , 1 ] h = 1 H n α , h ( N h n α , h N n ) 2 + λ h = 1 H ( n α , h n Neyman, h ) 2 . ( 4.1 ) MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaWaaCbeaeaaci GGTbGaaiyAaiaac6gaaSqaaiabeg7aHjaaykW7cqGHiiIZcaaMc8+a amWaaeaacaaIWaGaaiilaiaaysW7caaIXaaacaGLBbGaayzxaaaabe aakmaaqahabaGaamOBamaaBaaaleaacqaHXoqycaGGSaGaaGPaVlaa dIgaaeqaaaqaaiaadIgacqGH9aqpcaaIXaaabaGaamisaaqdcqGHri s5aOWaaeWaaeaadaWcaaqaaiaad6eadaWgaaWcbaGaamiAaaqabaaa keaacaWGUbWaaSbaaSqaaiabeg7aHjaacYcacaaMc8UaamiAaaqaba aaaOGaeyOeI0YaaSaaaeaacaWGobaabaGaamOBaaaaaiaawIcacaGL PaaadaahaaWcbeqaaiaaikdaaaGccqGHRaWkcqaH7oaBdaGcaaqaai aaykW7daaeWbqaamaabmaabaGaamOBamaaBaaaleaacqaHXoqycaGG SaGaaGPaVlaadIgaaeqaaOGaeyOeI0IaamOBamaaBaaaleaacaqGob GaaeyzaiaabMhacaqGTbGaaeyyaiaab6gacaqGSaGaaGPaVlaadIga aeqaaaGccaGLOaGaayzkaaWaaWbaaSqabeaacaaIYaaaaaqaaiaadI gacqGH9aqpcaaIXaaabaGaamisaaqdcqGHris5aaWcbeaakiaac6ca caaMf8UaaGzbVlaaywW7caaMf8UaaGzbVlaacIcacaaI0aGaaiOlai aaigdacaGGPaaaaa@86CC@

Nous appliquons ensuite la méthode suivante pour calculer la répartition optimale :

On obtient finalement la courbe représentée en figure 4.1. On remarque que sa forme correspond globalement à ce qui était attendu en appliquant le Théorème 1. On détermine visuellement le point de torsion, qui semble situé vers 1 10 7 . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaaGymaiabgw SixlaaigdacaaIWaWaaWbaaSqabeaacaaI3aaaaOGaaiOlaaaa@3C1B@ On pose donc λ coude = 1 10 7 , MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaeq4UdW2aaS baaSqaaiaabogacaqGVbGaaeyDaiaabsgacaqGLbaabeaakiabg2da 9iaaigdacqGHflY1caaIXaGaaGimamaaCaaaleqabaGaaG4naaaaki aacYcaaaa@43A8@ qui se situe légèrement à droite du coude, sur la partie plate de la courbe V ( λ ) . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamOvamaabm aabaGaeq4UdWgacaGLOaGaayzkaaGaaiOlaaaa@3AC1@

Figure 4.1 de l'article 54959 issue 2018002

Description de la figure 4.1

Figure (nuage de points) présentant la variance de l’estimateur d’Horvitz-Thompson du total du chiffre d’affaire dans le cadre d’un compromis avec la répartition de Neyman. La variance de l’estimateur d’Horvitz-Thompson du CA est sur l’axe des y, allant de 1e+14 à 6e+14. Lambda est sur l’axe des x, allant de 0 à 3,0e+07. Le nuage de points forme une courbe. La variance est très élevée pour de faibles valeurs de lambda et décroît rapidement vers un plateau de variance (environ 1e+14) pour lambda autour de 1,25e+07. Le point de torsion semble être à lambda = 1e+07.

On peut alors utiliser la valeur de λ coude MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaeq4UdW2aaS baaSqaaiaabogacaqGVbGaaeyDaiaabsgacaqGLbaabeaaaaa@3C76@ pour déterminer α coude , MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaeqySde2aaS baaSqaaiaabogacaqGVbGaaeyDaiaabsgacaqGLbaabeaakiaacYca aaa@3D1B@ à l’aide du programme d’optimisation de l’équation (4.1). Nous obtenons ici α coude = 0,644 . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaeqySde2aaS baaSqaaiaabogacaqGVbGaaeyDaiaabsgacaqGLbaabeaakiabg2da 9iaabcdacaqGSaGaaeOnaiaabsdacaqG0aGaaiOlaaaa@41AC@ Cette valeur de α MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaeqySdegaaa@3796@ obtenue peut être interprétée directement. Elle est assez proche de 0,5, ce qui montre que la répartition finale est également assez proche de la répartition qu’on appelle classiquement mixte, mais elle est supérieure à 0,5, ce qui montre que l’optimum du programme se rapproche sensiblement de la répartition proportionnelle. La répartition obtenue est décrite dans le tableau 4.2, et comparée à la répartition mixte usuelle utilisant la moyenne arithmétique entre les deux répartitions initiales.

Tableau 4.2
Distribution des tailles d’échantillon par strate pour la répartition obtenue, ainsi que pour les deux strates correspondant aux tailles d’échantillon maximales pour la répartition de Neyman et la répartition proportionnelle
Sommaire du tableau
Le tableau montre les résultats de Distribution des tailles d’échantillon par strate pour la répartition obtenue. Les données sont présentées selon Répartition (titres de rangée) et Min., Médiane, Max., α MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqk0Jf9crFfpeea0xh9v8qiW7rqqrpipeea0xe9Lq=Je9 vqaqFeFr0xbbG8FaYPYRWFb9fi0FXxbbf9Ff0dfrpm0dXdOqVu0=vr 0=vr0=fdbeqabeWacmGabiqabeqabmqabeabbaGcbaGaeqySdegaaa@3B00@ , Strate (10, 1-9) et Strate (10, 20-49)(figurant comme en-tête de colonne).
Répartition Min. Médiane Max. α MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqk0Jf9crFfpeea0xh9v8qiW7rqqrpipeea0xe9Lq=Je9 vqaqFeFr0xbbG8FaYPYRWFb9fi0FXxbbf9Ff0dfrpm0dXdOqVu0=vr 0=vr0=fdbeqabeWacmGabiqabeqabmqabeabbaGcbaGaeqySdegaaa@3B00@ Strate (10, 1-9) Strate (10, 20-49)
Proportionnelle 1 3 278 1 278 18
Coude 1 4 208 0,644 208 69
Mixte 1 4 179 0,5 179 90
Neyman 1 3 162 0 80 162

En termes de tailles d’échantillons dans les strates pour les diverses répartitions, on peut constater que l’on obtient un maximum pour la même strate que la répartition proportionnelle (10, 1-9), mais avec une distribution moins étendue. D’autre part, la strate (10, 20-49) qui a l’effectif le plus important dans la répartition de Neyman, voit effectivement sa taille augmenter par rapport à la répartition proportionnelle, mais reste toutefois bien inférieure à la répartition de Neyman. On voit bien l’apparition d’un compromis entre les répartitions, comme dans le cas de la répartition mixte usuelle.

Il reste cependant à s’intéresser aux deux critères qui motivent cette analyse, c’est-à-dire d’une part l’écart-type de l’estimateur d’Horvitz-Thompson du total du chiffre d’affaires (en milliards d’euros), et d’autre part la dispersion des poids et son influence sur la précision des estimateurs liés à d’autres concepts : pour l’évaluer, nous introduisons une variable z MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamOEaaaa@36F6@ non corrélée au chiffre d’affaires. Nous choisissons ici la variable z MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamOEaaaa@36F6@ liée à l’implantation géographique de l’entreprise définie de la façon suivante :

z i = { 1 si l entreprise i est située en Ile-de-France 0 sinon . MathType@MTEF@5@5@+= feaagKart1ev2aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamOEamaaBa aaleaacaWGPbaabeaakiabg2da9maaceaabaqbaeaabiGaaaqaaiaa igdaaeaacaqGZbGaaeyAaiaaysW7caaMc8UaaeiBaGqaaiaa=Lbica WFLbGaa8NBaiaa=rhacaWFYbGaa8xzaiaa=bhacaWFYbGaa8xAaiaa =nhacaWFLbGaaGjbVlaadMgacaaMe8Uaa8xzaiaa=nhacaWF0bGaa8 hiaiaa=nhacaWFPbGaa8hDaiaa=vhacaWFPdGaa8xzaiaaysW7caqG LbGaaeOBaiaaysW7caqGjbGaaeiBaiaabwgacaqGTaGaaeizaiaabw gacaqGTaGaaeOraiaabkhacaqGHbGaaeOBaiaabogacaqGLbaabaGa aGimaaqaaiaabohacaqGPbGaaeOBaiaab+gacaqGUbGaaeOlaaaaai aawUhaaaaa@6ED2@

Nous allons comparer sur ces trois critères notre méthode avec les répartitions initiales (proportionnelle, Neyman), mais également avec la répartition mixte classique (avec un facteur 0,5), avec des répartitions puissance de Bankier (1988) pour différentes valeurs de q MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyCaaaa@36ED@ (où T h ( α ) MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamivamaaBa aaleaacaWGObaabeaakmaabmaabaGaeqySdegacaGLOaGaayzkaaaa aa@3B1B@ est pris égal à la somme du chiffre d’affaires dans la strate h ) MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamiAaiaacM caaaa@3791@ et avec la répartition de Neyman sous contraintes de précision locale de Koubi et Mathern (2009). Les résultats obtenus sont exposés dans le tableau 4.3. Dans ce tableau, T ^ HT ( CA ) MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGabmivayaaja WaaSbaaSqaaiaabIeacaqGubaabeaakmaabmaabaGaae4qaiaabgea aiaawIcacaGLPaaaaaa@3BCB@ désigne l’estimateur d’Horvitz-Thompson du chiffre d’affaires, et T ^ HT ( z ) MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGabmivayaaja WaaSbaaSqaaiaabIeacaqGubaabeaakmaabmaabaGaamOEaaGaayjk aiaawMcaaaaa@3B40@ l’estimateur d’Horvitz-Thompson de la variable z . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamOEaiaac6 caaaa@37A8@

Tableau 4.3
Dispersion des poids et variance des estimateurs du chiffre d’affaires et de z MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqipu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lq=Je9 vqaqFeFr0xbbG8FaYPYRWFb9fi0FXxbbf9Ff0dfrpm0dXdOqVu0=vr 0=vr0=fdbeqabeWacmGabiqabeqabmqabeabbaGcbaGaamOEaaaa@382E@ pour plusieurs répartitions
Sommaire du tableau
Le tableau montre les résultats de Dispersion des poids et variance des estimateurs du chiffre d’affaires et de z MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqipu0Je9sqqrpepC0xbbL8F4rqqrpipeea0xe9Lq=Je9 vqaqFeFr0xbbG8FaYPYRWFb9fi0FXxbbf9Ff0dfrpm0dXdOqVu0=vr 0=vr0=fdbeqabeWacmGabiqabeqabmqabeabbaGcbaGaamOEaaaa@382E@ pour plusieurs répartitions. Les données sont présentées selon Répartition (titres de rangée) et Paramètre, Écart-type de (équation), Dispersion des poids et Écart-type de (équation) (figurant comme en-tête de colonne).
Répartition Paramètre Écart-type de T ^ HT ( CA ) MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqk0Jf9crFfpeea0xh9v8qiW7rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbeqabeWacmGabiqabeqabmqabeabbaGcbaGabmivayaaja WaaSbaaSqaaiaabIeacaqGubaabeaakmaabmaabaGaae4qaiaabgea aiaawIcacaGLPaaaaaa@3DF8@ Dispersion des poids Écart-type de T ^ HT ( z ) MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqk0Jf9crFfpeea0xh9v8qiW7rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbeqabeWacmGabiqabeqabmqabeabbaGcbaGabmivayaaja WaaSbaaSqaaiaabIeacaqGubaabeaakmaabmaabaGaamOEaaGaayjk aiaawMcaaaaa@3D6D@
Proportionnelle α = MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqk0Jf9crFfpeea0xh9v8qiW7rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaeqySdeMaaG ypaiaaiccaaaa@3B2A@ 1 24,7 47 10,7
Coude 0,644 12,5 1 929 11,6
Mixte 0,5 11,4 3 473 12,3
Neyman 0 9,8 18 585 17,9
Bankier q = MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqk0Jf9crFfpeea0xh9v8qiW7rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyCaiaai2 dacaaIGaaaaa@3A81@ 0,25 13,1 36 250 22,2
0,5 11,2 25 922 19,7
0,75 10,1 20 187 18,2
Koubi-Mathern MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqk0Jf9crFfpeea0xh9v8qiW7rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaeyyXICnaaa@3A64@ 12 35 680 22,7

On remarque ici que la répartition obtenue à l’aide de λ coude MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaeq4UdW2aaS baaSqaaiaabogacaqGVbGaaeyDaiaabsgacaqGLbaabeaaaaa@3C76@ a une précision pour l’estimation du chiffre d’affaires total assez proche de la répartition de Neyman, alors que la répartition proportionnelle entraîne un écart-type de l’estimateur de Horvitz-Thompson du total de chiffre d’affaires bien plus grand. Or, cette légère perte de précision est très largement contrebalancée par le gain en dispersion des poids par rapport à la répartition de Neyman et par un gain important en termes de précision sur le total de la variable géographique z . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamOEaiaac6 caaaa@37A8@ Notons que la dispersion des poids n’est pas nulle dans le cadre de la répartition proportionnelle à cause des arrondis. Lorsque l’on compare la répartition obtenue à la stratégie « mixte » utilisant le facteur α = 1 / 2 , MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaeqySdeMaey ypa0ZaaSGbaeaacaaIXaaabaGaaGPaVlaaikdaaaGaaiilaaaa@3C64@ on remarque que la perte d’un facteur 1.1 en précision du total de chiffre d’affaires est compensée par le gain d’un facteur 1.8 en dispersion des poids et de 1.1 sur la précision du nombre total d’entreprises situées en Ile-de-France. La répartition finale satisfait bien à nos contraintes, et répond à notre demande : avoir une bonne précision et une faible dispersion des poids.

La comparaison avec les méthodes de la littérature permet d’illustrer l’apport du compromis sur la dispersion des poids. Pour les répartitions puissance, on constate qu’en choissisant des valeurs de q MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyCaaaa@36ED@ élevées, correspondant à des répartitions proches de celles de Neyman, on obtient une précision meilleure pour l’estimation du chiffre d’affaires total que pour notre répartition. On constate que pour la totalité des répartitions de Bankier ainsi que pour la répartition de Neyman sous contraintes, la dispersion des poids obtenue est supérieure à celle de la répartition de Neyman, et donc largement supérieure à celle de notre répartition. De façon symétrique, et comme attendu, toutes ces répartitions conduisent à dégrader la précision de l’estimation du total de la variable z . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamOEaiaac6 caaaa@37A8@

L’objectif de ces méthodes concurrentes étant d’obtenir une meilleure précision locale, nous allons nous intéresser à plusieurs sous-domaines de notre champ (nomenclature A17 de l’économie française) :

Nous comparons alors la précision de l’estimateur du total de chiffre d’affaires pour chacun de ces secteurs. Les résultats sont compilés dans le tableau 4.4.

Tableau 4.4
Précisions locales de l’estimateur du total de chiffre d’affaires pour plusieurs répartitions
Sommaire du tableau
Le tableau montre les résultats de Précisions locales de l’estimateur du total de chiffre d’affaires pour plusieurs répartitions. Les données sont présentées selon Répartition (titres de rangée) et Paramètre, C1, C3, C4 et C5(figurant comme en-tête de colonne).
Répartition Paramètre C1 C3 C4 C5
Proportionnelle α = MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqk0Jf9crFfpeea0xh9v8qiW7rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaeqySdeMaaG ypaiaaiccaaaa@3B2A@ 1 0,29 0,30 0,46 0,16
Coude 0,644 0,16 0,20 0,35 0,07
Mixte 0,5 0,15 0,18 0,30 0,07
Neyman 0 0,12 0,15 0,25 0,06
Bankier q = MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqk0Jf9crFfpeea0xh9v8qiW7rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyCaiaai2 dacaaIGaaaaa@3A81@ 0,25 0,21 0,13 0,18 0,07
0,5 0,17 0,13 0,19 0,06
0,75 0,14 0,14 0,22 0,06
Koubi-Mathern MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqk0Jf9crFfpeea0xh9v8qiW7rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaeyyXICnaaa@3A64@ 0,11 0,11 0,11 0,09

On constate ici que la répartition que nous proposons donne des résultats légèrement moins bons que la répartition mixte classique sur la précision locale de l’estimateur du total de chiffre d’affaires. Elle est en revanche nettement meilleure que la répartition proportionnelle, et de façon moins marquée, moins efficace que la répartition de Neyman. Notre méthode de choix de α MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaeqySdegaaa@3796@ est ainsi un compromis efficace pour réduire la dispersion des poids sans trop impacter la précision globale et locale des estimateurs.

En revanche, et comme cela était attendu, les répartitions ayant pour objectif de compromis de maximiser ou d’uniformiser la précision locale sont meilleures que la répartition proposée sur la majorité des secteurs d’activité. Ainsi, choisir entre le compromis que nous proposons et celui proposé par Bankier (1988) revient à choisir entre une meilleure précision pour des variables non corrélées à la variable d’intérêt y MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyEaaaa@36F5@ (via la dispersion des poids), comme la variable z MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamOEaaaa@36F6@ définie ici, pour notre famille de répartitions mixtes, ou choisir une meilleure précision locale pour uniquement cette variable y MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyEaaaa@36F5@ dans le cas de la répartition puissance. L’avantage de notre méthode est cependant de pouvoir proposer une valeur du paramètre de compromis α MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaeqySdegaaa@3796@ optimal sur un certain critère, ce que ne fait pas la méthode de Bankier avec le paramètre q . MathType@MTEF@5@5@+= feaagKart1ev2aqatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbuLwBLn hiov2DGi1BTfMBaeXatLxBI9gBaerbd9wDYLwzYbItLDharqqtubsr 4rNCHbGeaGqiFu0Je9sqqrpepC0xbbL8F4rqqrpgpC0xc9LqFf0xc9 qqpeuf0xe9q8qiYRWFGCk9vi=dbbf9v8Gq0db9qqpm0dXdHqpq0=vr 0=vr0=edbaqaaeGaciGaaiaabeqaamaabaabaaGcbaGaamyCaiaac6 caaaa@379F@


Date de modification :