Optimisation d’une répartition mixte
Section 4. Application pratique

Table des matières

On s’intéresse au tirage d’un échantillon de 1 000 entreprises de l’industrie selon différents plans de sondages stratifiés afin de connaître le chiffre d’affaires total du secteur. Le champ exact est défini comme suit :

Entreprises actives situées en France.
Entreprises dont l’effectif est compris entre 1 et 100.
Entreprises dont le secteur d’activité, mesuré grâce au code d’activité principale exercée (APE) appartient à l’une des divisions de l’industrie dans la Nomenclature d’activité des communautées européennes (Nace, dont les divisions sont identiques aux 88 divisions de la Classification Internationale Type par Industrie de toutes les activités économiques appelée CITI ou ISIC en anglais), i.e., aux divisions de 10 à 33, hormis la 12 (Produits à base de tabac) et la 19 (Produits de la cokéfaction et du raffinage), qui ont une structure trop atypique pour notre étude.

La population initiale est de 102 172 entreprises. De manière générale, les entreprises ayant un fort effectif, par exemple plus de 100, sont souvent enquêtées exhaustivement. On se limite ici à la partie non exhaustive d’une enquête.

Cette population est stratifiée selon deux critères :

L’APE, au niveau division (deux premiers chiffres).
La tranche d’effectif, de la façon suivante : 1 à 9 salariés; 10 à 19 salariés; 20 à 49 salariés; 50 salariés ou plus.

ce qui constitue 88 strates, qu’on notera par la suite (A, B) où A est le secteur d’activité et B l’effectif.

On calcule alors les répartitions proportionnelle et de Neyman relative à la dispersion du chiffre d’affaires dans chacune de ces strates, pour $n = 1 000.$ Le tableau 4.1 résume les caractéristiques de ces deux répartitions, ainsi que les strates où la répartition est maximale, toutes deux dans la division 10 (Industries alimentaires).

Tableau 4.1
Distribution des tailles d’échantillon par strate pour les deux répartitions, et tailles d’échantillon pour les strates correspondant aux tailles d’échantillon maximales
Sommaire du tableau
Le tableau montre les résultats de Distribution des tailles d’échantillon par strate pour les deux répartitions. Les données sont présentées selon Répartition (titres de rangée) et Min., Médiane, Max., Strate, Répartition Proportionnelle et Répartition Neyman(figurant comme en-tête de colonne).
Répartition	Min.	Médiane	Max.	Strate	Répartition Proportionnelle	Répartition Neyman
Proportionnelle	1	3	278	(10, 1-9)	278	80
Neyman	1	5	162	(10, 20-49)	18	162

On souhaite choisir la répartition mixte optimale pour le problème présenté au paragraphe précédent. On choisit comme fonction de distance la distance euclidienne. L’équation 2.2 devient donc :

$\min_{α \in [0, 1]} \sum_{h = 1}^{H} n_{α, h} {(\frac{N_{h}}{n_{α, h}} - \frac{N}{n})}^{2} + λ \sqrt{\sum_{h = 1}^{H} {(n_{α, h} - n_{Neyman, h})}^{2}} . (4.1)$

Nous appliquons ensuite la méthode suivante pour calculer la répartition optimale :

Calculer pour différentes valeurs de $λ$ la valeur de $α$ solution du programme de minimisation de l’équation (4.1).
Pour chaque $α,$ calculer la répartition correspondante.
Pour chacune des répartitions, calculer analytiquement la variance de l’estimateur d’Horvitz-Thompson du total du chiffre d’affaires. Cela est possible car on dispose du chiffre d’affaires des entreprises dans le répertoire qui sert de base de sondage.

On obtient finalement la courbe représentée en figure 4.1. On remarque que sa forme correspond globalement à ce qui était attendu en appliquant le Théorème 1. On détermine visuellement le point de torsion, qui semble situé vers $1 \cdot 10^{7} .$ On pose donc $λ_{coude} = 1 \cdot 10^{7},$ qui se situe légèrement à droite du coude, sur la partie plate de la courbe $V (λ) .$

Figure 4.1 de l'article 54959 issue 2018002

Description de la figure 4.1

Figure (nuage de points) présentant la variance de l’estimateur d’Horvitz-Thompson du total du chiffre d’affaire dans le cadre d’un compromis avec la répartition de Neyman. La variance de l’estimateur d’Horvitz-Thompson du CA est sur l’axe des y, allant de 1e+14 à 6e+14. Lambda est sur l’axe des x, allant de 0 à 3,0e+07. Le nuage de points forme une courbe. La variance est très élevée pour de faibles valeurs de lambda et décroît rapidement vers un plateau de variance (environ 1e+14) pour lambda autour de 1,25e+07. Le point de torsion semble être à lambda = 1e+07.

On peut alors utiliser la valeur de $λ_{coude}$ pour déterminer $α_{coude},$ à l’aide du programme d’optimisation de l’équation (4.1). Nous obtenons ici $α_{coude} = 0,644 .$ Cette valeur de $α$ obtenue peut être interprétée directement. Elle est assez proche de 0,5, ce qui montre que la répartition finale est également assez proche de la répartition qu’on appelle classiquement mixte, mais elle est supérieure à 0,5, ce qui montre que l’optimum du programme se rapproche sensiblement de la répartition proportionnelle. La répartition obtenue est décrite dans le tableau 4.2, et comparée à la répartition mixte usuelle utilisant la moyenne arithmétique entre les deux répartitions initiales.

Tableau 4.2
Distribution des tailles d’échantillon par strate pour la répartition obtenue, ainsi que pour les deux strates correspondant aux tailles d’échantillon maximales pour la répartition de Neyman et la répartition proportionnelle
Sommaire du tableau
Le tableau montre les résultats de Distribution des tailles d’échantillon par strate pour la répartition obtenue. Les données sont présentées selon Répartition (titres de rangée) et Min., Médiane, Max., $α$ , Strate (10, 1-9) et Strate (10, 20-49)(figurant comme en-tête de colonne).
Répartition	Min.	Médiane	Max.	$α$	Strate (10, 1-9)	Strate (10, 20-49)
Proportionnelle	1	3	278	1	278	18
Coude	1	4	208	0,644	208	69
Mixte	1	4	179	0,5	179	90
Neyman	1	3	162	0	80	162

En termes de tailles d’échantillons dans les strates pour les diverses répartitions, on peut constater que l’on obtient un maximum pour la même strate que la répartition proportionnelle (10, 1-9), mais avec une distribution moins étendue. D’autre part, la strate (10, 20-49) qui a l’effectif le plus important dans la répartition de Neyman, voit effectivement sa taille augmenter par rapport à la répartition proportionnelle, mais reste toutefois bien inférieure à la répartition de Neyman. On voit bien l’apparition d’un compromis entre les répartitions, comme dans le cas de la répartition mixte usuelle.

Il reste cependant à s’intéresser aux deux critères qui motivent cette analyse, c’est-à-dire d’une part l’écart-type de l’estimateur d’Horvitz-Thompson du total du chiffre d’affaires (en milliards d’euros), et d’autre part la dispersion des poids et son influence sur la précision des estimateurs liés à d’autres concepts : pour l’évaluer, nous introduisons une variable $z$ non corrélée au chiffre d’affaires. Nous choisissons ici la variable $z$ liée à l’implantation géographique de l’entreprise définie de la façon suivante :

$z_{i} = {\begin{array}{l} 1 & si l ’ entreprise i est située en Ile-de-France \\ 0 & sinon . \end{array}$

Nous allons comparer sur ces trois critères notre méthode avec les répartitions initiales (proportionnelle, Neyman), mais également avec la répartition mixte classique (avec un facteur 0,5), avec des répartitions puissance de Bankier (1988) pour différentes valeurs de $q$ (où $T_{h} (α)$ est pris égal à la somme du chiffre d’affaires dans la strate $h)$ et avec la répartition de Neyman sous contraintes de précision locale de Koubi et Mathern (2009). Les résultats obtenus sont exposés dans le tableau 4.3. Dans ce tableau, ${\hat{T}}_{HT} (CA)$ désigne l’estimateur d’Horvitz-Thompson du chiffre d’affaires, et ${\hat{T}}_{HT} (z)$ l’estimateur d’Horvitz-Thompson de la variable $z .$

Tableau 4.3
Dispersion des poids et variance des estimateurs du chiffre d’affaires et de $z$ pour plusieurs répartitions
Sommaire du tableau
Le tableau montre les résultats de Dispersion des poids et variance des estimateurs du chiffre d’affaires et de $z$ pour plusieurs répartitions. Les données sont présentées selon Répartition (titres de rangée) et Paramètre, Écart-type de (équation), Dispersion des poids et Écart-type de (équation) (figurant comme en-tête de colonne).
Répartition	Paramètre	Écart-type de ${\hat{T}}_{HT} (CA)$	Dispersion des poids	Écart-type de ${\hat{T}}_{HT} (z)$
Proportionnelle	$α =$ 1	24,7	47	10,7
Coude	0,644	12,5	1 929	11,6
Mixte	0,5	11,4	3 473	12,3
Neyman	0	9,8	18 585	17,9
Bankier	$q =$ 0,25	13,1	36 250	22,2
	0,5	11,2	25 922	19,7
	0,75	10,1	20 187	18,2
Koubi-Mathern	$\cdot$	12	35 680	22,7

On remarque ici que la répartition obtenue à l’aide de $λ_{coude}$ a une précision pour l’estimation du chiffre d’affaires total assez proche de la répartition de Neyman, alors que la répartition proportionnelle entraîne un écart-type de l’estimateur de Horvitz-Thompson du total de chiffre d’affaires bien plus grand. Or, cette légère perte de précision est très largement contrebalancée par le gain en dispersion des poids par rapport à la répartition de Neyman et par un gain important en termes de précision sur le total de la variable géographique $z .$ Notons que la dispersion des poids n’est pas nulle dans le cadre de la répartition proportionnelle à cause des arrondis. Lorsque l’on compare la répartition obtenue à la stratégie « mixte » utilisant le facteur $α = 1 / 2,$ on remarque que la perte d’un facteur 1.1 en précision du total de chiffre d’affaires est compensée par le gain d’un facteur 1.8 en dispersion des poids et de 1.1 sur la précision du nombre total d’entreprises situées en Ile-de-France. La répartition finale satisfait bien à nos contraintes, et répond à notre demande : avoir une bonne précision et une faible dispersion des poids.

La comparaison avec les méthodes de la littérature permet d’illustrer l’apport du compromis sur la dispersion des poids. Pour les répartitions puissance, on constate qu’en choissisant des valeurs de $q$ élevées, correspondant à des répartitions proches de celles de Neyman, on obtient une précision meilleure pour l’estimation du chiffre d’affaires total que pour notre répartition. On constate que pour la totalité des répartitions de Bankier ainsi que pour la répartition de Neyman sous contraintes, la dispersion des poids obtenue est supérieure à celle de la répartition de Neyman, et donc largement supérieure à celle de notre répartition. De façon symétrique, et comme attendu, toutes ces répartitions conduisent à dégrader la précision de l’estimation du total de la variable $z .$

L’objectif de ces méthodes concurrentes étant d’obtenir une meilleure précision locale, nous allons nous intéresser à plusieurs sous-domaines de notre champ (nomenclature A17 de l’économie française) :

Domaine C1 : Fabrication de denrées alimentaires, de boissons;
Domaine C3 : Fabrication d’équipements électriques, électroniques, informatiques; fabrication de machines;
Domaine C4 : Fabrication de matériels de transport;
Domaine C5 : Fabrication d’autres produits industriels.

Nous comparons alors la précision de l’estimateur du total de chiffre d’affaires pour chacun de ces secteurs. Les résultats sont compilés dans le tableau 4.4.

Tableau 4.4
Précisions locales de l’estimateur du total de chiffre d’affaires pour plusieurs répartitions
Sommaire du tableau
Le tableau montre les résultats de Précisions locales de l’estimateur du total de chiffre d’affaires pour plusieurs répartitions. Les données sont présentées selon Répartition (titres de rangée) et Paramètre, C1, C3, C4 et C5(figurant comme en-tête de colonne).
Répartition	Paramètre	C1	C3	C4	C5
Proportionnelle	$α =$ 1	0,29	0,30	0,46	0,16
Coude	0,644	0,16	0,20	0,35	0,07
Mixte	0,5	0,15	0,18	0,30	0,07
Neyman	0	0,12	0,15	0,25	0,06
Bankier	$q =$ 0,25	0,21	0,13	0,18	0,07
	0,5	0,17	0,13	0,19	0,06
	0,75	0,14	0,14	0,22	0,06
Koubi-Mathern	$\cdot$	0,11	0,11	0,11	0,09

On constate ici que la répartition que nous proposons donne des résultats légèrement moins bons que la répartition mixte classique sur la précision locale de l’estimateur du total de chiffre d’affaires. Elle est en revanche nettement meilleure que la répartition proportionnelle, et de façon moins marquée, moins efficace que la répartition de Neyman. Notre méthode de choix de $α$ est ainsi un compromis efficace pour réduire la dispersion des poids sans trop impacter la précision globale et locale des estimateurs.

En revanche, et comme cela était attendu, les répartitions ayant pour objectif de compromis de maximiser ou d’uniformiser la précision locale sont meilleures que la répartition proposée sur la majorité des secteurs d’activité. Ainsi, choisir entre le compromis que nous proposons et celui proposé par Bankier (1988) revient à choisir entre une meilleure précision pour des variables non corrélées à la variable d’intérêt $y$ (via la dispersion des poids), comme la variable $z$ définie ici, pour notre famille de répartitions mixtes, ou choisir une meilleure précision locale pour uniquement cette variable $y$ dans le cas de la répartition puissance. L’avantage de notre méthode est cependant de pouvoir proposer une valeur du paramètre de compromis $α$ optimal sur un certain critère, ce que ne fait pas la méthode de Bankier avec le paramètre $q .$

ISSN : 1712-5685

Politique de rédaction

Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.

Présentation de textes pour la revue

Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).

Note de reconnaissance

Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.

Normes de service à la clientèle

Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.

Droit d'auteur

Publication autorisée par le ministre responsable de Statistique Canada.

L'utilisation de la présente publication est assujettie aux modalités de l'Entente de licence ouverte de Statistique Canada.

N° 12-001-X au catalogue

Périodicité : semi-annuel

Ottawa

Date de modification :: 2018-12-20

Sélection de la langue

Recherche et menus

Recherche

Optimisation d’une répartition mixte
Section 4. Application pratique

Optimisation d’une répartition mixte Section 4. Application pratique

Politique de rédaction

Présentation de textes pour la revue

Note de reconnaissance

Normes de service à la clientèle

Droit d'auteur

Optimisation d’une répartition mixte
Section 4. Application pratique