Un algorithme d’optimisation appliqué au problème de stratification unidimensionnelle
Section 5. Résultats du calcul

Table des matières

Dans cette section, nous présentons les résultats de l’application de six méthodes au problème de stratification (Dalenius et Hodges (DH), méthode géométrique (GH), Kozak (KO), algorithme génétique de Keskintürk et Er (KE), GRASP (GR) et nouvelle méthode BRKGA décrite à la section 4 (BR)). Nous avons effectué toute cette expérience avec la version 3.3.1 de R. On peut trouver les méthodes DH, GH et KO dans le package stratification en R de Baillargeon et Rivest (2014) (version 2.2-5). Nous employons dans ce cas la méthode de répartition d’échantillon de Neyman. La méthode KE figure dans le package en R GA4Stratification de Er, Keskintürk et Daly (2010) (version 1.0). Avec cette méthode, le maximum d’itérations considérées était de 10 000 et les valeurs des autres paramètres requis étaient celles qu’indiquent Keskintürk et Er (2007), à savoir $p = 35$ solutions candidates dans chaque population, un taux de mutation de 15 % et une répartition d’échantillon aussi fondée sur l’algorithme génétique. Les auteurs ont appliqué les méthodes GR et BR en R et le code en question figure dans le package stratbr de de Moura Brito et coll. (2017a) (version 1.2) disponible par le réseau CRAN.

Dans le cas de la méthode BR, nous avons examiné $p = 100$ solutions candidates à chaque itération avec 20 % de solutions retenues $(p_{e} = 20)$ et 30 % de mutations $(p_{m} = 30) .$ La probabilité de copier un gène du vecteur retenu était fixée à $r_{c} = 0,6$ et le nombre total d’itérations, à 1 500. Aux fins de la répartition d’échantillon, nous avons combiné les méthodes BR et GR à la formulation proposée par de Moura Brito et coll. (2015) qui figure dans le package MultAlloc en R et qui est aussi disponible par le réseau CRAN.

Dans une comparaison d’efficacité relative, nous avons appliqué ces méthodes à 27 populations. Certaines de celles-ci figurent dans les packages stratification et GA4Stratification en R; elles ont auparavant servi à certaines études comparatives comme celles de Keskintürk et Er (2007), Er (2011) et de Moura Brito et coll. (2017b). On trouvera à l’annexe A une brève description de toutes ces populations avec des précisions sur les variables considérées comme la « variable $x »$ dans chaque population. Le tableau 5.1 présente certaines descriptions sommaires des populations en question.

Les 27 populations traitées forment ici un ensemble très hétérogène et leur taille totale varie de quelques centaines d’éléments (ME84 et P75 avec $N = 18 570$ sont les plus petites tailles) à plusieurs milliers (Coffee avec $N = 18 570$ est la taille la plus grande). On constate aussi une forte variation (de $K = 51$ pour Kozak1 à $K = 5 453$ pour Kozak3) du nombre $K$ de valeurs distinctes de la variable de stratification, qui est la mesure de taille la plus importante pour l’efficacité de notre algorithme d’optimisation. Notons enfin une ample variation de l’asymétrie des distributions de la variable $x$ entre des valeurs modestes en sens négatif (-0,70 pour Beta103) et une valeur appréciable (40,04 pour CensoCO).

Nous avons fait tous les calculs du volet computationnel de notre expérience en R avec un ordinateur de 24 Go de mémoire vive et 8 processeurs de 3,40 GHz (I7). Tirant parti de l’architecture multicœur des ordinateurs modernes, nous avons employé le package snowfall en R pour un traitement parallèle de l’algorithme BRKGA. Précisons que, à chaque itération, la procédure de décodage produit un jeu de solutions pour les bornes. Ces bornes sont ensuite transmises au package MultAlloc pour une répartition optimale permettant d’obtenir les tailles d’échantillon des diverses strates, puis de calculer la fonction objective de variance. Comme la formulation de cet exercice d’optimisation globale influe directement sur le temps de calcul à cette étape, nous avons mis la répartition et le calcul de la fonction objective en traitement parallèle.

Tableau 5.1
Tableau récapitulatif de la variable de stratification pour les 27 populations
Sommaire du tableau
Le tableau montre les résultats de Tableau récapitulatif de la variable de stratification pour les 27 populations. Les données sont présentées selon Populations (titres de rangée) et N, K, Minimum, Maximum et Asymétrie(figurant comme en-tête de colonne).
Populations	N	K	Minimum	Maximum	Asymétrie
AgrMinas	844	226	5,00	47 800,00	7,32
BeefFarms	430	353	50,00	24 250,00	4,56
Beta103	1 000	1 000	357,98	985,96	-0,70
CensoCO	9 977	79	1,00	911,00	40,04
Chi5	1 000	1 000	0,06	23,43	1,40
Café	18 570	538	0,01	13 212,00	19,69
Débiteurs	3 369	1 129	40,00	28 000,00	6,44
HHinctot	16 025	224	1,00	6 900,00	2,71
Iso2004	487	487	6,36	1 044,66	10,03
Kozak1	4 000	51	72,00	3,00	1,40
Kozak3	2 000	581	2 793,00	6,00	3,55
Kozak4	10 000	5 453	74 400,00	62,00	4,20
ME84	284	264	173,00	47 074,00	8,64
EMCD	2 000	2 000	1,41	4 863,66	8,61
P100e10	1 000	1 000	73,56	127,32	-0,03
P75	284	68	4,00	671,00	8,43
Pop500	500	261	0,01	47 841,42	21,53
Pop800	800	402	0,01	4 735,10	22,13
pop1076	1 076	88	5,00	1 643,00	13,23
pop1616	1 616	165	5,00	2 618,00	11,09
pop2911	2 911	247	5,00	2 497,00	11,50
REV84	284	277	347,00	59 877,00	7,83
SugarCaneFarms	338	101	18,00	280,00	2,26
Swiss	2 896	881	0,00	3 634,00	2,73
USbanks	357	200	70,00	977,00	2,07
UScities	1 038	116	10,00	198,00	2,87
UScolleges	677	576	200,00	9 623,00	2,45
Nota : N est la taille totale de population et K est le nombre de valeurs uniques de la variable de stratification.

Les six méthodes de l’expérience numérique ont été appliquées à chacune des 27 populations; le nombre $H$ de strates était de 3, 4, 5 et 6. Nous avons employé ces valeurs puisqu’elles revenaient souvent dans les applications et dans des études comparatives semblables de la documentation spécialisée comme celles de Er (2011) et de Gunning et Horgan (2004). Nous avons négligé les valeurs supérieures de $H,$ car le gain d’efficacité serait modeste avec $H > 6.$ Nous avons pris comme taille d’échantillon $n = 100$ (à coût fixe) comme dans les expériences numériques de Er (2011) et Kozak et Verma (2006).

Pour évaluer l’efficacité des méthodes, nous avons calculé les CV de l’estimateur du total de la variable de stratification $x$ pour chaque population et chaque nombre de strates, ce qui a donné $27 \times 4 =$ 108 scénarios pour chaque méthode. Nous avons obtenu les CV à l’équation (2.7) et multiplié ces valeurs par 100 pour les mettre sous forme de pourcentage. Le tableau 5.2 présente les CV des six méthodes. Les cases ombrées correspondent aux méthodes représentant la meilleure solution (CV minimal) dans chacun des 108 scénarios. Les « sans objet » dans ces tableaux sont les cas où nous ne pouvions obtenir de solutions à cause de problèmes avec la méthode de stratification ou la répartition correspondante.

Si nous analysons les résultats au tableau 5.2 et, en particulier, les cases ombrées, il ressort que BR est d’un excellent rendement si on compare cette méthode aux cinq rivales. Cette perception est renforcée par les courbes de la figure 5.1 où la méthode BR est comparée à toutes ses rivales. Les points au-dessus de la droite représentent les scénarios où la méthode mise en comparaison est d’un moindre rendement que la méthode BR. À considérer ces courbes, il est clair que les trois méthodes les plus performantes sont GR, KO et BR.

Le tableau 5.3 indique en pourcentage le nombre de fois que chaque méthode produit la meilleure solution sur les 108 scénarios. Les deux méthodes BR et KO sont d’un rendement supérieur aux autres méthodes et se retrouvent à égalité à plusieurs reprises pour la meilleure solution. La méthode DH a produit la meilleure solution dans seulement 3 des 108 scénarios et la méthode GH ne le fait jamais.

Ajoutons que la méthode géométrique GH donne non seulement des CV élevés, mais souvent aussi des solutions impossibles où les bornes de strate mènent à des répartitions où les tailles d’échantillon sont supérieures aux tailles de population correspondantes. Cette méthode a quelquefois pour effet de répartir la population en laissant très peu d’éléments dans certaines strates. D’après Gunning et Horgan (2004) et comme le signalent Keskintürk et Er (2007), comme l’étendue des intervalles s’accroît géométriquement, la méthode GH ne donne pas de bons résultats avec de faibles valeurs de la variable de stratification, puisque certaines strates sont alors étroites. Cette méthode est inapplicable de surcroît lorsque la valeur la plus basse de la variable de stratification est zéro.

Pour la plupart des populations, la méthode KE a produit des CV proches de ceux des méthodes KO, GR et BR, qui sont les plus efficaces en temps de calcul. Nous avons observé une forte variation des temps de calcul entre les méthodes. La méthode KE était la pire à ce critère avec des temps bien supérieurs à ceux des méthodes rivales. Par ailleurs, la méthode KO avait les calculs les plus rapides et offrait fréquemment la meilleure précision possible (CV les plus bas). La méthode BR présentait un temps de calcul intermédiaire entre ceux des méthodes KO et KE.

Le graphique à la figure 5.2 présente en pourcentage les fois que chacune des méthodes BR, KO, KE et GR produit la meilleure solution selon le nombre de strates. On y voit un net avantage pour la méthode BR comparativement aux méthodes KE et GR. Comparée à la KO, la BR a un meilleur rendement avec $H = 3$ et $H = 6,$ la KO l’emporte cependant sur le BR avec $H = 4$ et $H = 5.$ La GR était aussi bonne que la KO avec $H = 3$ et $H = 6,$ mais l’était moins que la BR et KO avec $H = 4$ et $H = 5.$ La KE était clairement la perdante dans cette analyse pour tout nombre $H$ de strates.

Nous avons en outre étudié les associations entre le rendement et d’autres facteurs possibles comme l’asymétrie ou la taille $(N$ ou $K)$ des populations, mais sans en arriver à des associations significatives dans notre ensemble limité de populations.

Tableau 5.2
CV de l’estimateur du total de la variable de stratification selon les scénarios
Sommaire du tableau
Le tableau montre les résultats de CV de l’estimateur du total de la variable de stratification selon les scénarios. Les données sont présentées selon Populations (titres de rangée) et H, CVDH, CVGH, CVKO, CVKE, CVGR et CVBR(figurant comme en-tête de colonne).
Populations	H	CV_DH	CV_GH	CV_KO	CV_KE	CV_GR	CV_BR
AgrMinas	3	4,158	7,187	4,050	4,089	4,050	4,050
	4	2,714	4,965	2,643	2,811	2,645	2,645
	5	2,325	3,828	1,945	2,262	1,945	1,945
	6	1,821	2,975	1,593	1,932	1,580	1,580
BeefFarms	3	2,758	2,491	1,875	2,086	1,875	1,875
	4	1,853	1,825	1,188	1,557	1,188	1,188
	5	1,455	1,369	0,902	1,280	0,902	0,902
	6	1,148	1,167	0,726	0,990	0,726	0,726
Beta103	3	0,561	0,810	0,560	0,560	0,559	0,559
	4	0,413	0,579	0,410	0,408	0,410	0,410
	5	0,337	0,500	0,329	0,329	0,329	0,329
	6	0,280	0,418	0,276	0,275	0,277	0,276
CensoCO	3	NA	4,839	4,334	4,336	4,334	4,334
	4	NA	4,388	3,078	3,062	3,078	3,078
	5	NA	NA	2,401	2,435	2,401	2,401
	6	NA	NA	1,949	1,956	1,943	1,943
Chi5	3	2,522	4,217	2,502	2,489	2,502	2,502
	4	1,897	3,199	1,889	1,881	1,889	1,889
	5	1,518	2,875	1,515	1,538	1,515	1,515
	6	1,258	NA	1,248	1,251	1,248	1,248
Café	3	10,049	12,598	6,906	6,876	6,906	6,906
	4	NA	10,450	4,996	5,027	4,996	4,996
	5	NA	8,124	3,877	3,939	3,877	3,877
	6	NA	6,756	3,176	3,477	3,176	3,176
Débiteurs	3	5,626	6,150	5,554	5,554	5,554	5,554
	4	4,098	4,387	4,049	4,049	4,049	4,049
	5	3,163	3,595	3,131	3,131	3,131	3,131
	6	2,639	2,897	2,562	2,562	2,562	2,562
HHinctot	3	3,206	5,106	3,184	3,184	3,184	3,184
	4	2,436	4,542	2,429	2,430	2,429	2,429
	5	1,993	4,225	1,973	1,979	1,973	1,973
	6	1,676	3,794	1,629	1,629	1,629	1,629
Iso2004	3	2,716	3,330	1,894	1,894	1,894	1,894
	4	2,059	2,154	1,206	1,206	1,207	1,207
	5	1,616	1,839	0,908	0,908	0,909	0,909
	6	1,380	NA	0,702	0,703	0,704	0,703
Kozak1	3	1,695	2,432	1,695	1,695	1,695	1,695
	4	1,305	2,020	1,301	1,301	1,301	1,301
	5	1,051	1,705	1,050	1,052	1,050	1,050
	6	0,904	1,402	0,890	0,917	0,890	0,890
Kozak3	3	3,673	5,049	3,663	3,659	3,663	3,663
	4	2,733	3,980	2,723	2,724	2,723	2,723
	5	2,208	3,199	2,178	2,231	2,178	2,178
	6	1,823	2,733	1,817	1,827	1,819	1,817
Kozak4	3	4,263	5,811	4,257	4,239	4,257	4,257
	4	3,219	4,696	3,204	3,193	3,205	3,204
	5	2,606	3,873	2,589	2,587	2,591	2,589
	6	2,168	3,236	2,155	2,155	2,157	2,158
ME84	3	1,703	2,527	1,296	1,296	1,296	1,296
	4	1,402	1,642	0,870	0,870	0,870	0,870
	5	1,050	1,549	0,661	0,661	0,661	0,661
	6	0,907	1,213	0,521	0,577	0,521	0,521
EMCD	3	4,363	5,829	4,167	4,167	4,167	4,167
	4	3,406	5,259	2,960	2,960	2,961	2,960
	5	2,498	4,015	2,297	2,485	2,297	2,297
	6	2,167	3,445	1,836	1,836	1,838	1,836
P100e10	3	0,375	0,444	0,373	0,371	0,373	0,373
	4	0,295	0,346	0,294	0,294	0,294	0,294
	5	0,236	0,288	0,236	0,236	0,236	0,236
	6	0,198	0,242	0,196	0,198	0,196	0,196
P75	3	1,635	2,592	1,459	1,459	1,459	1,459
	4	1,415	1,798	0,966	0,966	0,966	0,966
	5	1,047	1,563	0,829	0,835	0,713	0,713
	6	0,896	1,250	0,769	0,553	0,552	0,552
pop1076	3	4,597	3,715	2,437	2,775	2,437	2,437
	4	NA	2,853	1,624	2,164	1,624	1,624
	5	NA	2,168	1,204	1,869	1,203	1,203
	6	NA	1,827	0,953	1,549	0,951	0,951
pop1616	3	4,989	4,318	3,898	3,921	3,898	3,898
	4	3,823	3,267	2,564	2,716	2,564	2,564
	5	3,187	2,508	1,882	2,183	1,882	1,882
	6	NA	2,050	1,527	1,962	1,496	1,496
pop2911	3	5,925	5,935	5,605	5,569	5,605	5,605
	4	4,070	3,992	3,807	3,807	3,807	3,807
	5	3,262	3,183	2,918	2,943	2,918	2,918
	6	2,632	2,649	2,281	2,418	2,281	2,281
Pop500	3	NA	0,678	0,092	0,127	0,092	0,092
	4	NA	0,178	0,059	0,082	0,060	0,060
	5	NA	0,194	0,043	0,059	0,045	0,046
	6	NA	0,117	0,033	0,046	0,036	0,037
Pop800	3	NA	3,133	1,555	2,448	1,555	1,555
	4	NA	2,755	0,996	1,511	0,996	0,996
	5	NA	1,620	0,701	1,261	0,702	0,702
	6	NA	1,436	0,546	0,823	0,550	0,548
REV84	3	1,901	2,777	1,614	1,776	1,614	1,614
	4	1,500	1,975	1,120	1,120	1,120	1,120
	5	1,235	1,700	0,835	0,836	0,835	0,835
	6	0,881	1,315	0,666	0,666	0,667	0,666
SugarCaneFarms	3	1,640	1,929	1,627	1,628	1,627	1,627
	4	1,152	1,440	1,118	1,122	1,118	1,118
	5	0,912	1,186	0,839	0,858	0,839	0,839
	6	0,707	1,041	0,691	0,732	0,682	0,682
Swiss	3	3,726	NA	3,682	3,683	3,690	3,682
	4	2,830	NA	2,781	2,781	2,787	2,781
	5	2,246	NA	2,227	2,549	2,232	2,228
	6	1,905	NA	1,860	1,880	1,864	1,860
USbanks	3	1,861	1,843	1,802	1,802	1,802	1,802
	4	1,364	1,417	1,270	1,270	1,270	1,270
	5	1,118	1,079	0,861	0,861	0,861	0,861
	6	0,794	0,850	0,718	0,710	0,710	0,710
UScities	3	2,738	2,705	2,655	2,687	2,655	2,655
	4	1,972	1,951	1,927	1,934	1,927	1,927
	5	1,483	1,451	1,436	1,437	1,436	1,436
	6	1,260	1,305	1,228	1,214	1,209	1,209
UScolleges	3	2,928	3,169	2,749	2,749	2,749	2,749
	4	2,106	2,185	2,018	2,018	2,018	2,018
	5	1,707	1,838	1,606	1,607	1,607	1,606
	6	1,486	1,488	1,323	1,323	1,323	1,323

Figure 5.1 Comparaison des CV des estimateurs du total dans les diverses méthodes de stratification pour l’ensemble des populations et les nombres de strates (H)

Description de la figure 5.1

Figure comparant les CV des estimateurs du total dans les diverses méthodes de stratification pour l’ensemble des populations et les nombres de strates. Il y a cinq graphiques en nuage de points avec une droite à 45 °. Les CV de la méthode BR sont sur les axes des x, allant de 0 à 5. Les CV pour les méthodes DH, GH, GR, KE et KO sont sur les axes des y pour les graphiques (a) à (e) respectivement, allant de 0 à 5 (GR, KE et KO), 0 à 6 (DH) ou 0 à 7 (GH). Les CV pour les méthodes DH et GH sont généralement au-dessus de la ligne droite, ce qui signifie que la méthode BR performe mieux. Les CV pour la méthode KE sont sur la ligne droite ou moyennement au-dessus. Les CV pour GR et KO semblent être équivalents aux CV pour BR.

Tableau 5.3
Pourcentage de fois que la méthode a produit la meilleure solution
Sommaire du tableau
Le tableau montre les résultats de Pourcentage de fois que la méthode a produit la meilleure solution. Les données sont présentées selon Méthode (titres de rangée) et Nombre de fois en %(figurant comme en-tête de colonne).
Méthode	Nombre de fois en %
DH	2,8
GH	0,0
KE	42,6
GR	71,3
KO	78,7
BR	78,7

Figure 5.2 Pourcentage de meilleures solutions produites par méthode et nombre de strates (H)

Description de la figure 5.2

Histogramme des pourcentages de meilleures solutions produites par méthode et nombre de strates. Le pourcentage de solutions optimales, de 0 à 100, est sur l’axe des y. Le nombre de strates $H (3, 4, 5, 6)$ est sur l’axe des x. Pour chaque $H,$ il y a une barre pour les méthodes BR, KO, KE et GR. La méthode BR donne de meilleurs résultats que les méthodes KE et GR. La méthode BR a un meilleur rendement que la méthode KO pour $H = 3$ et $H = 6,$ mais la méthode KO l’emporte avec $H = 4$ et $H = 5.$ La GR était aussi bonne que la KO pour $H = 3$ et $H = 6,$ mais l’était moins que la BR et KO pour $H = 4$ et $H = 5.$ La KE a le moins bon rendement pour tout nombre $H$ de strates.

ISSN : 1712-5685

Politique de rédaction

Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.

Présentation de textes pour la revue

Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).

Note de reconnaissance

Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.

Normes de service à la clientèle

Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.

Droit d'auteur

Publication autorisée par le ministre responsable de Statistique Canada.

L'utilisation de la présente publication est assujettie aux modalités de l'Entente de licence ouverte de Statistique Canada.

N° 12-001-X au catalogue

Périodicité : semi-annuel

Ottawa

Date de modification :: 2019-07-04

Sélection de la langue

Recherche et menus

Recherche

Un algorithme d’optimisation appliqué au problème de stratification unidimensionnelle
Section 5. Résultats du calcul

Un algorithme d’optimisation appliqué au problème de stratification unidimensionnelle Section 5. Résultats du calcul

Politique de rédaction

Présentation de textes pour la revue

Note de reconnaissance

Normes de service à la clientèle

Droit d'auteur

Un algorithme d’optimisation appliqué au problème de stratification unidimensionnelle
Section 5. Résultats du calcul