Un algorithme d’optimisation appliqué au problème de stratification unidimensionnelle
Section 6. Conclusions

Table des matières

Comme nous l’avons mentionné, l’échantillonnage stratifié est très important comme plan de sondage, puisqu’il aide à améliorer la précision des estimations d’enquête pour une taille donnée d’échantillon ou un budget d’enquête. Cette constatation vaut particulièrement pour les populations asymétriques ou hétérogènes qui sont souvent caractéristiques des enquêtes auprès des entreprises ou des établissements. Les gains que peut apporter la stratification dépendent fortement de la délimitation des strates et de la répartition de l’échantillon entre ces strates pour une variable de stratification et une méthode de sélection d’échantillon déterminées.

Nous avons présenté une nouvelle méthode d’optimisation applicable à ce problème de stratification avec l’algorithme génétique biaisé à clés aléatoires (BRKGA). Dans notre approche (appelée BR), nous combinons l’algorithme de détermination des bornes de strate à la formulation proposée par de Moura Brito et coll. (2015) pour une répartition optimale de l’échantillon, laquelle se révèle efficace en temps de calcul dans le cas des grandes populations $(N$ élevé).

Les résultats présentés de la comparaison de cette méthode avec les cinq méthodes rivales considérées semblent indiquer que la méthode BR constitue un bon moyen de traitement des problèmes de stratification et de répartition dans la pratique.

Il serait facile de généraliser notre approche aux cas où la variable de stratification $x$ n’est pas « mesurée », mais récapitule plutôt un certain nombre de covariables sous la forme d’une variable $y$ prédite. Il en va de même de la généralisation à deux variables numériques $x$ ou plus, ce qu’on peut aisément accomplir en changeant la fonction de décodage servant à tirer les solutions possibles de l’algorithme BRKGA avec le package stratbr en R (voir de Moura Brito et coll., 2017a).

Dans des futurs travaux, nous nous emploierons à concevoir et à évaluer d’autres procédures de décodage à utiliser avec la méthode BR pour la production de solutions d’une qualité supérieure à celles que nous obtenons avec la procédure de décodage examinée ici. Dans cette recherche, nous tenterons de résoudre en même temps le problème de minimisation de la taille totale d’échantillon en fonction d’une précision recherchée, comme l’ont fait Lavallée et Hidiroglou (1988). Disons enfin que, dans de nouveaux travaux empiriques, nous pourrions varier les tailles d’échantillon pour les diverses populations à l’étude comme l’ont fait Kozak (2004) et Gunning et Horgan (2004).

Annexe A

Tableau A.1
Description des 27 populations considérées dans l’expérience numérique
Sommaire du tableau
Le tableau montre les résultats de Description des 27 populations considérées dans l’expérience numérique. Les données sont présentées selon Population (titres de rangée) et Description(figurant comme en-tête de colonne).
Population	Description
AgrMinas	Production agricole des municipalités de l’État de Minas Gerais au Brésil selon le recensement agricole de 2006.
AgrMinas	Variable de stratification : superficie ensemencée.
BeefFarms	Élevages australiens pour la boucherie stratifiés en sept régions industrielles selon Chambers et Dunstan (1986).
BeefFarms	Variable de stratification : taille des élevages.
Beta103	Population en simulation tirée d’une distribution bêta avec les paramètres $a = 10$ et $b = 3$ selon Keskintürk et Er (2007).
Chi5	Population en simulation tirée d’une distribution khi-carré avec $d f = 5$ selon Keskintürk et Er (2007).
Café	Plantations de café de l’État de Paraná au Brésil dans le recensement agricole de 1996 selon de Moura Brito et coll. (2015).
Café	Variable de stratification : nombre de caféiers.
CensoCO	Données du recensement des écoles de 2012 au Brésil pour la région centre-ouest.
CensoCO	Variable de stratification : nombre de salles de classe.
Débiteurs	Population de débiteurs d’une entreprise irlandaise selon Er (2011).
Débiteurs	Variable de stratification : passif déclaré par les débiteurs irlandais.
HHinctot	Population de valeurs brutes de revenu familial (avant impôt sur le revenu) dans l’Enquête sur les dépenses des familles de 2001 de Statistique Canada selon Er (2011).
Iso2004	Données obtenues par la Chambre industrielle d’Istanbul sur les ventes nettes de 487 entreprises industrielles de Turquie parmi les 500 entreprises les plus importantes en 2004 d’après Keskintürk et Er (2007).
Iso2004	Variable de stratification : ventes nettes.
Kozak1, Kozak3, Kozak4	Populations considérées par Kozak et Verma (2006).
Kozak1, Kozak3, Kozak4	Variable de stratification : formule $X = \exp (Z),$ où $Z$ est une réalisation d’une variable aléatoire normale.
ME84	Données de Särndal, Swensson et Wretman (1992) selon Er (2011).
ME84	Variable de stratification : nombre d’employés municipaux en 1984.
EMCD	Population en simulation tirée de l’Enquête mensuelle sur le commerce de détail de Statistique Canada selon Er (2011).
EMCD	Variable de stratification : mesure de taille employée pour les détaillants canadiens dans cette enquête de Statistique Canada; on crée cette mesure en combinant une information d’enquête indépendante à trois variables administratives des déclarations de revenu des sociétés.
P75	Population en milliers de 284 municipalités suédoises en 1975 selon Er (2011).
P75	Variable de stratification : population en milliers.
P100e10	Population en simulation tirée d’une distribution normale avec $μ = 100$ et $σ = 10$ selon Keskintürk et Er (2007).
pop1076	Population extraite de l’enquête annuelle sur la fabrication au Brésil selon de Moura Brito et coll. (2017b).
pop1076	Variable de stratification : nombre d’employés.
pop1616	Population extraite de l’enquête annuelle sur la fabrication au Brésil selon de Moura Brito et coll. (2017b).
pop1616	Variable de stratification : nombre d’employés.
pop2911	Population extraite de l’enquête annuelle sur la fabrication au Brésil selon de Moura Brito et coll. (2017b).
pop2911	Variable de stratification : nombre d’employés.
Pop500	Population $N = 500$ en simulation tirée de la distribution log normale $X = e^{z}$ avec $Z$ normal, $μ = 4$ et $σ^{2} = 2,7$ selon Hedlin (2000).
Pop800	Population $N = 800$ en simulation tirée de la distribution log normale $X = e^{z}$ avec $Z$ normal, $μ = 4$ et $σ^{2} = 2,7$ selon Hedlin (2000).
REV84	Valeur des bâtiments en millions de couronnes suédoises dans 284 municipalités de Suède en 1984 selon Er (2011).
REV84	Variable de stratification : produit de la fiscalité municipale en 1985.
SugarCaneFarms	Plantations de canne à sucre en Australie selon Chambers et Dunstan (1986).
SugarCaneFarms	Variable de stratification : récolte totale de canne à sucre.
USbanks	Actif en millions de dollars américains des grandes banques commerciales nord-américaines selon Er (2011).
USbanks	Variable de stratification : ressources en millions de dollars des grandes banques commerciales américaines.
UScities	Population en milliers des villes nord-américaines en 1940 selon Er (2011).
UScities	Variable de stratification : population en milliers.
UScolleges	Nombre d’étudiants en quatrième année dans les facultés américaines en 1952-1953 selon Er (2011).
UScolleges	Variable de stratification : nombre d’étudiants.
Swiss	Données sur les municipalités de Suisse en 2003 avec le package SamplingStrata en R.
Swiss	Variable de stratification : superficie en culture.

Bibliographie

Baillargeon, S., et Rivest, L.-P. (2014). Stratification: Univariate stratification of survey populations. Package R version 2.2-5. http://CRAN.R-project.org/package=stratification.

Bankier, M.D. (1988). Power allocations: Determining sample sizes for sub-national areas. The American Statistician, 42, 174-177.

Chambers, R., et Dunstan, R. (1986). Estimating distribution functions from survey data. Biometrika, 73, 3, 597-604.

Cochran, W. (1977). Sampling Techniques, 3^rd Ed. New York: John Wiley & Sons, Inc.

Dalenius, T. (1951). The problem of optimum stratification. Scandinavian Actuarial Journal, 1-2, 133-148.

Dalenius, T., et Hodges, J. (1959). Minimum variance stratification. Journal of the American Statistical Association, 285, 54, 88-101.

De Moura Brito, J.A.M., do Nascimento Silva, P.L. et da Veiga, T.M. (2017a). Stratbr: Optimal Stratification in Stratified Sampling. Package R version 1.2. https://CRAN.R-project.org/package=stratbr.

De Moura Brito, J.A.M., do Nascimento Silva, P.L., Silva Semaan, G. et Maculan, N. (2015). Application des formulaires de la programmation en nombres entiers à la répartition optimale dans l’échantillonnage stratifié. Techniques d’enquête, 41, 2, 451-467. Article accessible à l’adresse https://www150.statcan.gc.ca/n1/en/pub/12-001-x/2015002/article/14249-fra.pdf.

De Moura Brito, J.A.M., Maculan, N., Lila, M. et Montenegro, F. (2010b). An exact algorithm for the stratification problem with proportional allocation. Optimization Letters, 4, 185-195.

De Moura Brito, J.A.M., Ochi, L., Montenegro, F. et Maculan, N. (2010a). An iterative local search approach applied to the optimal stratification problem. International Transactions in Operational Research, 17, 6, 753-764.

De Moura Brito, J.A.M., Silva Semaan, G., Fadel, A. et Brito, L.R. (2017b). An optimization approach applied to the optimal stratification problem. Communications in Statistics: Simulation and Computation, 46, 4419-4451.

Ekman, G. (1959). An approximation useful in univariate stratification. The Annals of Mathematical Statistics, 30, 1, 219-229.

Er, S. (2011). Comparison of the efficiency of the various algorithms in stratified sampling when the initial solutions are determined with geometric method. International Journal of Statistics and Applications, 1, 1, 1-10.

Er, S., Keskintürk, T. et Daly, C. (2010). GA4Stratification: A genetic algorithm approach to determine stratum boundaries and sample sizes of each stratum in stratified sampling. Package R version 1.0. http://CRAN.R-project.org/package=stratification.

Festa, P. (2013). A biased random-key genetic algorithm for data clustering. SI:BIOCOMP, Math. Biosci., 245, 1, 76-85.

Gonçalves, J.F., et Resende, M.G.C. (2004). An evolutionary algorithm for manufacturing cell formation. Comput. Ind. Eng, 47, 247-273.

Gonçalves, J.F., et Resende, M. (2011). Biased random-key genetic algorithms for combinatorial optimization. Journal of Heuristics, 17, 487-525.

Gonçalves, J.F., Mendes, J.J.M. et Resende, M.G.C. (2005). A hybrid genetic algorithm for the job shop scheduling problem. Eur. J. Oper. Res, 167, 77-95.

Gunning, P., et Horgan, J.M. (2004). Un nouvel algorithme pour la construction de bornes de stratification dans les populations asymétriques. Techniques d’enquête, 30, 2, 177-185. Article accessible à l’adresse https://www150.statcan.gc.ca/n1/en/pub/12-001-x/2004002/article/7749-fra.pdf.

Hedlin, D. (2000). A procedure for stratification by an extended Ekman rule. Journal of Official Statistics, 16, 15-29.

Hidiroglou, M.A. (1986). The construction of a self-representing stratum of large units in survey design. The American Statistician, 1, 40, 27-31.

Hidiroglou, M.A., et Kozak, M. (2017). Stratification of skewed populations: A comparison of optimisation-based versus approximate methods. Revue Internationale de Statistique, https://doi.org/10.1111/insr.12230.

Keskintürk, T., et Er, S. (2007). A genetic algorithm approach to determine stratum boundaries and sample sizes of each stratum in stratified sampling. Computational Statistics & Data Analysis, 52, 53-67.

Khan, M.G.M., Nand, N. et Ahmad, N. (2008). Détermination des bornes optimales de strate au moyen de la programmation dynamique. Techniques d’enquête, 34, 2, 227-236. Article accessible à l’adresse https://www150.statcan.gc.ca/n1/en/pub/12-001-x/2008002/article/10761-fra.pdf.

Kozak, M. (2004). Optimal stratification using random search method in agricultural surveys. Statistics in Transition, 6, 5, 797-806.

Kozak, M. (2006). Multivariate sample allocation: Application of a random search method. Statistics in Transition, 7, 4, 889-900.

Kozak, M. (2014). Comparison of random search method and genetic algorithm for stratification. Communications in Statistics – Simulation and Computation, 43, 2, 249-253.

Kozak, M., et Verma, M.R. (2006). Approche de la stratification par une méthode géométrique et par optimisation : une comparaison de l’efficacité. Techniques d’enquête, 32, 2, 177-183. Article accessible à l’adresse https://www150.statcan.gc.ca/n1/en/pub/12-001-x/2006002/article/9550-fra.pdf.

Lavallée, P., et Hidiroglou, M.A. (1988). Sur la stratification de populations asymétriques. Techniques d’enquête, 14, 1, 35-45. Article accessible à l’adresse https://www150.statcan.gc.ca/n1/en/pub/12-001-x/1988001/article/14602-fra.pdf.

Lohr, S. (2010). Sampling: Design and Analysis, 2^nd Ed. Washington: Duxbury Press.

Oliveira, R.M., Chaves, A.A. et Lorena, L.A.N. (2017). A comparison of two hybrid methods for constrained clustering problems. Applied Soft Computing, 54, 256-266.

Rao, D.K., Khan, M.G.M. et Reddy, K.G. (2014). Optimum stratification of a skewed population. International Journal of Mathematical, Computational, Physical and Quantum Engineering, 8, 3, 497-500.

Rivest, L.-P. (2002). Une généralisation de l’algorithme de Lavallée et Hidiroglou pour la stratification dans les enquêtes auprès des entreprises. Techniques d’enquête, 28, 2, 207-214. Article accessible à l’adresse https://www150.statcan.gc.ca/n1/en/pub/12-001-x/2002002/article/6432-fra.pdf.

Särndal, C.-E., Swensson, B. et Wretman, J. (1992). Model Assisted Survey Sampling, New York: Springer Verlag.

Spears, W., et De Jong, K. (1991). On the virtues of parameterized uniform crossover. Dans Proceedings of the Fourth International Conference on Genetic Algorithms, 230-236.

ISSN : 1712-5685

Politique de rédaction

Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.

Présentation de textes pour la revue

Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).

Note de reconnaissance

Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.

Normes de service à la clientèle

Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.

Droit d'auteur

Publication autorisée par le ministre responsable de Statistique Canada.

L'utilisation de la présente publication est assujettie aux modalités de l'Entente de licence ouverte de Statistique Canada.

N° 12-001-X au catalogue

Périodicité : semi-annuel

Ottawa

Date de modification :: 2019-07-04

Sélection de la langue

Recherche et menus

Recherche

Un algorithme d’optimisation appliqué au problème de stratification unidimensionnelle
Section 6. Conclusions

Annexe A

Bibliographie

Un algorithme d’optimisation appliqué au problème de stratification unidimensionnelle Section 6. Conclusions

Annexe A

Bibliographie

Politique de rédaction

Présentation de textes pour la revue

Note de reconnaissance

Normes de service à la clientèle

Droit d'auteur

Un algorithme d’optimisation appliqué au problème de stratification unidimensionnelle
Section 6. Conclusions