Optimisation d’une répartition mixte
Section 4. Application pratique
On
s’intéresse au tirage d’un échantillon de 1 000 entreprises de l’industrie
selon différents plans de sondages stratifiés afin de connaître le chiffre
d’affaires total du secteur. Le champ exact est défini comme suit :
- Entreprises actives situées en France.
- Entreprises dont l’effectif est compris
entre 1 et 100.
- Entreprises dont le secteur d’activité,
mesuré grâce au code d’activité principale exercée (APE) appartient à l’une des
divisions de l’industrie dans
la Nomenclature
d’activité des communautées
européennes (Nace, dont les divisions sont identiques aux 88 divisions de
la Classification
Internationale
Type par Industrie de toutes les activités
économiques appelée CITI ou ISIC en anglais), i.e., aux divisions de 10 à 33,
hormis la 12 (Produits à base de tabac) et la 19 (Produits de la cokéfaction et
du raffinage), qui ont une structure trop atypique pour notre étude.
La population
initiale est de 102 172 entreprises. De manière générale, les entreprises
ayant un fort effectif, par exemple plus de 100, sont souvent enquêtées
exhaustivement. On se limite ici à la partie non exhaustive d’une enquête.
Cette
population est stratifiée selon deux critères :
- L’APE, au niveau division (deux premiers
chiffres).
- La tranche d’effectif, de la façon
suivante : 1 à 9 salariés; 10 à 19 salariés; 20 à 49 salariés; 50 salariés
ou plus.
ce qui constitue 88 strates, qu’on
notera par la suite (A, B) où A est le secteur d’activité et B l’effectif.
On calcule
alors les répartitions proportionnelle et de Neyman relative à la dispersion du
chiffre d’affaires dans chacune de ces strates, pour
Le
tableau 4.1 résume les caractéristiques de ces deux répartitions, ainsi
que les strates où la répartition est maximale, toutes deux dans la division 10
(Industries alimentaires).
Tableau 4.1
Distribution des tailles d’échantillon par strate pour les deux répartitions, et tailles d’échantillon pour les strates correspondant aux tailles d’échantillon maximales
Sommaire du tableau
Le tableau montre les résultats de Distribution des tailles d’échantillon par strate pour les deux répartitions. Les données sont présentées selon Répartition (titres de rangée) et Min., Médiane, Max., Strate, Répartition Proportionnelle et Répartition Neyman(figurant comme en-tête de colonne).
Répartition |
Min. |
Médiane |
Max. |
Strate |
Répartition Proportionnelle |
Répartition Neyman |
Proportionnelle |
1 |
3 |
278 |
(10, 1-9) |
278 |
80 |
Neyman |
1 |
5 |
162 |
(10, 20-49) |
18 |
162 |
On souhaite choisir
la répartition mixte optimale pour le problème présenté au paragraphe
précédent. On choisit comme fonction de distance la distance euclidienne.
L’équation 2.2 devient donc :
Nous
appliquons ensuite la méthode suivante pour calculer la répartition
optimale :
- Calculer pour différentes valeurs de
la
valeur de
solution du programme de minimisation de
l’équation (4.1).
- Pour chaque
calculer la répartition correspondante.
- Pour chacune des répartitions, calculer
analytiquement la variance de l’estimateur d’Horvitz-Thompson du total du
chiffre d’affaires. Cela est possible car on dispose du chiffre d’affaires des
entreprises dans le répertoire qui sert de base de sondage.
On obtient
finalement la courbe représentée en figure 4.1. On remarque que sa forme
correspond globalement à ce qui était attendu en appliquant le Théorème 1.
On détermine visuellement le point de torsion, qui semble situé vers
On
pose donc
qui
se situe légèrement à droite du coude, sur la partie plate de la courbe
Description de la figure 4.1
Figure (nuage de points) présentant la variance de l’estimateur d’Horvitz-Thompson du total du chiffre d’affaire dans le cadre d’un compromis avec la répartition de Neyman. La variance de l’estimateur d’Horvitz-Thompson du CA est sur l’axe des y, allant de 1e+14 à 6e+14. Lambda est sur l’axe des x, allant de 0 à 3,0e+07. Le nuage de points forme une courbe. La variance est très élevée pour de faibles valeurs de lambda et décroît rapidement vers un plateau de variance (environ 1e+14) pour lambda autour de 1,25e+07. Le point de torsion semble être à lambda = 1e+07.
On peut alors
utiliser la valeur de
pour déterminer
à
l’aide du programme d’optimisation de l’équation (4.1). Nous obtenons ici
Cette valeur de
obtenue peut être interprétée directement.
Elle est assez proche de 0,5, ce qui montre que la répartition finale est
également assez proche de la répartition qu’on appelle classiquement mixte,
mais elle est supérieure à 0,5, ce qui montre que l’optimum du programme se
rapproche sensiblement de la répartition proportionnelle. La répartition
obtenue est décrite dans le tableau 4.2, et comparée à la répartition
mixte usuelle utilisant la moyenne arithmétique entre les deux répartitions
initiales.
Tableau 4.2
Distribution des tailles d’échantillon par strate pour la répartition obtenue, ainsi que pour les deux strates correspondant aux tailles d’échantillon maximales pour la répartition de Neyman et la répartition proportionnelle
Sommaire du tableau
Le tableau montre les résultats de Distribution des tailles d’échantillon par strate pour la répartition obtenue. Les données sont présentées selon Répartition (titres de rangée) et Min., Médiane, Max., , Strate (10, 1-9) et Strate (10, 20-49)(figurant comme en-tête de colonne).
Répartition |
Min. |
Médiane |
Max. |
|
Strate (10, 1-9) |
Strate (10, 20-49) |
Proportionnelle |
1 |
3 |
278 |
1 |
278 |
18 |
Coude |
1 |
4 |
208 |
0,644 |
208 |
69 |
Mixte |
1 |
4 |
179 |
0,5 |
179 |
90 |
Neyman |
1 |
3 |
162 |
0 |
80 |
162 |
En termes de
tailles d’échantillons dans les strates pour les diverses répartitions, on peut
constater que l’on obtient un maximum pour la même strate que la répartition
proportionnelle (10, 1-9), mais avec une distribution moins étendue.
D’autre part, la strate (10, 20-49) qui a l’effectif le plus important
dans la répartition de Neyman, voit effectivement sa taille augmenter par
rapport à la répartition proportionnelle, mais reste toutefois bien inférieure
à la répartition de Neyman. On voit bien l’apparition d’un compromis entre les
répartitions, comme dans le cas de la répartition mixte usuelle.
Il reste
cependant à s’intéresser aux deux critères qui motivent cette analyse, c’est-à-dire
d’une part l’écart-type de l’estimateur d’Horvitz-Thompson du total du chiffre
d’affaires (en milliards d’euros), et d’autre part la dispersion des poids et
son influence sur la précision des estimateurs liés à d’autres concepts :
pour l’évaluer, nous introduisons une variable
non
corrélée au chiffre d’affaires. Nous choisissons ici la variable
liée à l’implantation géographique de
l’entreprise définie de la façon suivante :
Nous allons
comparer sur ces trois critères notre méthode avec les répartitions initiales
(proportionnelle, Neyman), mais également avec la répartition mixte classique
(avec un facteur 0,5), avec des répartitions puissance de Bankier (1988) pour
différentes valeurs de
(où
est
pris égal à la somme du chiffre d’affaires dans la strate
et
avec la répartition de Neyman sous contraintes de précision locale de Koubi et
Mathern (2009). Les résultats obtenus sont exposés dans le tableau 4.3.
Dans ce tableau,
désigne l’estimateur d’Horvitz-Thompson du
chiffre d’affaires, et
l’estimateur d’Horvitz-Thompson de la variable
Tableau 4.3
Dispersion des poids et variance des estimateurs du chiffre d’affaires et de pour plusieurs répartitions
Sommaire du tableau
Le tableau montre les résultats de Dispersion des poids et variance des estimateurs du chiffre d’affaires et de pour plusieurs répartitions. Les données sont présentées selon Répartition (titres de rangée) et Paramètre, Écart-type de (équation), Dispersion des poids et Écart-type de (équation) (figurant comme en-tête de colonne).
Répartition |
Paramètre |
Écart-type de
|
Dispersion des poids |
Écart-type de
|
Proportionnelle |
1 |
24,7 |
47 |
10,7 |
Coude |
0,644 |
12,5 |
1 929 |
11,6 |
Mixte |
0,5 |
11,4 |
3 473 |
12,3 |
Neyman |
0 |
9,8 |
18 585 |
17,9 |
Bankier |
0,25 |
13,1 |
36 250 |
22,2 |
0,5 |
11,2 |
25 922 |
19,7 |
0,75 |
10,1 |
20 187 |
18,2 |
Koubi-Mathern |
|
12 |
35 680 |
22,7 |
On remarque
ici que la répartition obtenue à l’aide de
a
une précision pour l’estimation du chiffre d’affaires total assez proche de la
répartition de Neyman, alors que la répartition proportionnelle entraîne un
écart-type de l’estimateur de Horvitz-Thompson du total de chiffre d’affaires
bien plus grand. Or, cette légère perte de précision est très largement
contrebalancée par le gain en dispersion des poids par rapport à la répartition
de Neyman et par un gain important en termes de précision sur le total de la
variable géographique
Notons que la dispersion des poids n’est pas
nulle dans le cadre de la répartition proportionnelle à cause des arrondis.
Lorsque l’on compare la répartition obtenue à la stratégie « mixte »
utilisant le facteur
on
remarque que la perte d’un facteur 1.1 en précision du total de chiffre
d’affaires est compensée par le gain d’un facteur 1.8 en dispersion des poids
et de 1.1 sur la précision du nombre total d’entreprises situées en
Ile-de-France. La répartition finale satisfait bien à nos contraintes, et
répond à notre demande : avoir une bonne précision et une faible
dispersion des poids.
La
comparaison avec les méthodes de la littérature permet d’illustrer l’apport du
compromis sur la dispersion des poids. Pour les répartitions puissance, on
constate qu’en choissisant des valeurs de
élevées, correspondant à des répartitions
proches de celles de Neyman, on obtient une précision meilleure pour
l’estimation du chiffre d’affaires total que pour notre répartition. On
constate que pour la totalité des répartitions de Bankier ainsi que pour la
répartition de Neyman sous contraintes, la dispersion des poids obtenue est
supérieure à celle de la répartition de Neyman, et donc largement supérieure à
celle de notre répartition. De façon symétrique, et comme attendu, toutes ces
répartitions conduisent à dégrader la précision de l’estimation du total de la
variable
L’objectif de
ces méthodes concurrentes étant d’obtenir une meilleure précision locale, nous
allons nous intéresser à plusieurs sous-domaines de notre champ (nomenclature
A17 de l’économie française) :
- Domaine C1 : Fabrication de denrées
alimentaires, de boissons;
- Domaine C3 : Fabrication d’équipements
électriques, électroniques, informatiques; fabrication de machines;
- Domaine C4 : Fabrication de matériels
de transport;
- Domaine C5 : Fabrication d’autres
produits industriels.
Nous
comparons alors la précision de l’estimateur du total de chiffre d’affaires
pour chacun de ces secteurs. Les résultats sont compilés dans le tableau 4.4.
Tableau 4.4
Précisions locales de l’estimateur du total de chiffre d’affaires pour plusieurs répartitions
Sommaire du tableau
Le tableau montre les résultats de Précisions locales de l’estimateur du total de chiffre d’affaires pour plusieurs répartitions. Les données sont présentées selon Répartition (titres de rangée) et Paramètre, C1, C3, C4 et C5(figurant comme en-tête de colonne).
Répartition |
Paramètre |
C1 |
C3 |
C4 |
C5 |
Proportionnelle |
1 |
0,29 |
0,30 |
0,46 |
0,16 |
Coude |
0,644 |
0,16 |
0,20 |
0,35 |
0,07 |
Mixte |
0,5 |
0,15 |
0,18 |
0,30 |
0,07 |
Neyman |
0 |
0,12 |
0,15 |
0,25 |
0,06 |
Bankier |
0,25 |
0,21 |
0,13 |
0,18 |
0,07 |
0,5 |
0,17 |
0,13 |
0,19 |
0,06 |
0,75 |
0,14 |
0,14 |
0,22 |
0,06 |
Koubi-Mathern |
|
0,11 |
0,11 |
0,11 |
0,09 |
On constate
ici que la répartition que nous proposons donne des résultats légèrement moins
bons que la répartition mixte classique sur la précision locale de l’estimateur
du total de chiffre d’affaires. Elle est en revanche nettement meilleure que la
répartition proportionnelle, et de façon moins marquée, moins efficace que la
répartition de Neyman. Notre méthode de choix de
est
ainsi un compromis efficace pour réduire la dispersion des poids sans trop
impacter la précision globale et locale des estimateurs.
En revanche,
et comme cela était attendu, les répartitions ayant pour objectif de compromis
de maximiser ou d’uniformiser la précision locale sont meilleures que la
répartition proposée sur la majorité des secteurs d’activité. Ainsi, choisir
entre le compromis que nous proposons et celui proposé par Bankier (1988)
revient à choisir entre une meilleure précision pour des variables non
corrélées à la variable d’intérêt
(via la dispersion des poids), comme la
variable
définie ici, pour notre famille de
répartitions mixtes, ou choisir une meilleure précision locale pour uniquement
cette variable
dans le cas de la répartition puissance.
L’avantage de notre méthode est cependant de pouvoir proposer une valeur du
paramètre de compromis
optimal sur un certain critère, ce que ne fait
pas la méthode de Bankier avec le paramètre
ISSN : 1712-5685
Politique de rédaction
Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.
Présentation de textes pour la revue
Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).
Note de reconnaissance
Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.
Normes de service à la clientèle
Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.
Droit d'auteur
Publication autorisée par le ministre responsable de Statistique Canada.
© Sa Majesté la Reine du chef du Canada, représentée par le ministre de l’Industrie 2018
L'utilisation de la présente publication est assujettie aux modalités de l'Entente de licence ouverte de Statistique Canada.
N° 12-001-X au catalogue
Périodicité : semi-annuel
Ottawa