Un algorithme d’optimisation appliqué au problème de stratification unidimensionnelle
Section 6. Conclusions
Comme nous l’avons mentionné, l’échantillonnage stratifié est très important comme plan de sondage, puisqu’il aide à améliorer la précision des estimations d’enquête pour une taille donnée d’échantillon ou un budget d’enquête. Cette constatation vaut particulièrement pour les populations asymétriques ou hétérogènes qui sont souvent caractéristiques des enquêtes auprès des entreprises ou des établissements. Les gains que peut apporter la stratification dépendent fortement de la délimitation des strates et de la répartition de l’échantillon entre ces strates pour une variable de stratification et une méthode de sélection d’échantillon déterminées.
Nous avons présenté une nouvelle méthode d’optimisation applicable à ce problème de stratification avec l’algorithme génétique biaisé à clés aléatoires (BRKGA). Dans notre approche (appelée BR), nous combinons l’algorithme de détermination des bornes de strate à la formulation proposée par de Moura Brito et coll. (2015) pour une répartition optimale de l’échantillon, laquelle se révèle efficace en temps de calcul dans le cas des grandes populations élevé).
Les résultats présentés de la comparaison de cette méthode avec les cinq méthodes rivales considérées semblent indiquer que la méthode BR constitue un bon moyen de traitement des problèmes de stratification et de répartition dans la pratique.
Il serait facile de généraliser notre approche aux cas où la variable de stratification n’est pas « mesurée », mais récapitule plutôt un certain nombre de covariables sous la forme d’une variable prédite. Il en va de même de la généralisation à deux variables numériques ou plus, ce qu’on peut aisément accomplir en changeant la fonction de décodage servant à tirer les solutions possibles de l’algorithme BRKGA avec le package stratbr en R (voir de Moura Brito et coll., 2017a).
Dans des futurs travaux, nous nous emploierons à concevoir et à évaluer d’autres procédures de décodage à utiliser avec la méthode BR pour la production de solutions d’une qualité supérieure à celles que nous obtenons avec la procédure de décodage examinée ici. Dans cette recherche, nous tenterons de résoudre en même temps le problème de minimisation de la taille totale d’échantillon en fonction d’une précision recherchée, comme l’ont fait Lavallée et Hidiroglou (1988). Disons enfin que, dans de nouveaux travaux empiriques, nous pourrions varier les tailles d’échantillon pour les diverses populations à l’étude comme l’ont fait Kozak (2004) et Gunning et Horgan (2004).
Annexe A
| Population | Description |
|---|---|
| AgrMinas | Production agricole des municipalités de l’État de Minas Gerais au Brésil selon le recensement agricole de 2006. |
| Variable de stratification : superficie ensemencée. | |
| BeefFarms | Élevages australiens pour la boucherie stratifiés en sept régions industrielles selon Chambers et Dunstan (1986). |
| Variable de stratification : taille des élevages. | |
| Beta103 | Population en simulation tirée d’une distribution bêta avec les paramètres et selon Keskintürk et Er (2007). |
| Chi5 | Population en simulation tirée d’une distribution khi-carré avec selon Keskintürk et Er (2007). |
| Café | Plantations de café de l’État de Paraná au Brésil dans le recensement agricole de 1996 selon de Moura Brito et coll. (2015). |
| Variable de stratification : nombre de caféiers. | |
| CensoCO | Données du recensement des écoles de 2012 au Brésil pour la région centre-ouest. |
| Variable de stratification : nombre de salles de classe. | |
| Débiteurs | Population de débiteurs d’une entreprise irlandaise selon Er (2011). |
| Variable de stratification : passif déclaré par les débiteurs irlandais. | |
| HHinctot | Population de valeurs brutes de revenu familial (avant impôt sur le revenu) dans l’Enquête sur les dépenses des familles de 2001 de Statistique Canada selon Er (2011). |
| Iso2004 | Données obtenues par la Chambre industrielle d’Istanbul sur les ventes nettes de 487 entreprises industrielles de Turquie parmi les 500 entreprises les plus importantes en 2004 d’après Keskintürk et Er (2007). |
| Variable de stratification : ventes nettes. | |
| Kozak1, Kozak3, Kozak4 |
Populations considérées par Kozak et Verma (2006). |
| Variable de stratification : formule où est une réalisation d’une variable aléatoire normale. | |
| ME84 | Données de Särndal, Swensson et Wretman (1992) selon Er (2011). |
| Variable de stratification : nombre d’employés municipaux en 1984. | |
| EMCD | Population en simulation tirée de l’Enquête mensuelle sur le commerce de détail de Statistique Canada selon Er (2011). |
| Variable de stratification : mesure de taille employée pour les détaillants canadiens dans cette enquête de Statistique Canada; on crée cette mesure en combinant une information d’enquête indépendante à trois variables administratives des déclarations de revenu des sociétés. | |
| P75 | Population en milliers de 284 municipalités suédoises en 1975 selon Er (2011). |
| Variable de stratification : population en milliers. | |
| P100e10 | Population en simulation tirée d’une distribution normale avec et selon Keskintürk et Er (2007). |
| pop1076 | Population extraite de l’enquête annuelle sur la fabrication au Brésil selon de Moura Brito et coll. (2017b). |
| Variable de stratification : nombre d’employés. | |
| pop1616 | Population extraite de l’enquête annuelle sur la fabrication au Brésil selon de Moura Brito et coll. (2017b). |
| Variable de stratification : nombre d’employés. | |
| pop2911 | Population extraite de l’enquête annuelle sur la fabrication au Brésil selon de Moura Brito et coll. (2017b). |
| Variable de stratification : nombre d’employés. | |
| Pop500 | Population en simulation tirée de la distribution log normale avec normal, et selon Hedlin (2000). |
| Pop800 | Population en simulation tirée de la distribution log normale avec normal, et selon Hedlin (2000). |
| REV84 | Valeur des bâtiments en millions de couronnes suédoises dans 284 municipalités de Suède en 1984 selon Er (2011). |
| Variable de stratification : produit de la fiscalité municipale en 1985. | |
| SugarCaneFarms | Plantations de canne à sucre en Australie selon Chambers et Dunstan (1986). |
| Variable de stratification : récolte totale de canne à sucre. | |
| USbanks | Actif en millions de dollars américains des grandes banques commerciales nord-américaines selon Er (2011). |
| Variable de stratification : ressources en millions de dollars des grandes banques commerciales américaines. | |
| UScities | Population en milliers des villes nord-américaines en 1940 selon Er (2011). |
| Variable de stratification : population en milliers. | |
| UScolleges | Nombre d’étudiants en quatrième année dans les facultés américaines en 1952-1953 selon Er (2011). |
| Variable de stratification : nombre d’étudiants. | |
| Swiss | Données sur les municipalités de Suisse en 2003 avec le package SamplingStrata en R. |
| Variable de stratification : superficie en culture. |
Bibliographie
Baillargeon, S., et Rivest, L.-P. (2014). Stratification: Univariate stratification of survey populations. Package R version 2.2-5. http://CRAN.R-project.org/package=stratification.
Bankier, M.D. (1988). Power allocations: Determining sample sizes for sub-national areas. The American Statistician, 42, 174-177.
Chambers, R., et Dunstan, R. (1986). Estimating distribution functions from survey data. Biometrika, 73, 3, 597-604.
Cochran, W. (1977). Sampling Techniques, 3rd Ed. New York: John Wiley & Sons, Inc.
Dalenius, T. (1951). The problem of optimum stratification. Scandinavian Actuarial Journal, 1-2, 133-148.
Dalenius, T., et Hodges, J. (1959). Minimum variance stratification. Journal of the American Statistical Association, 285, 54, 88-101.
De Moura Brito, J.A.M., do Nascimento Silva, P.L. et da Veiga, T.M. (2017a). Stratbr: Optimal Stratification in Stratified Sampling. Package R version 1.2. https://CRAN.R-project.org/package=stratbr.
De Moura Brito, J.A.M., do Nascimento Silva, P.L., Silva Semaan, G. et Maculan, N. (2015). Application des formulaires de la programmation en nombres entiers à la répartition optimale dans l’échantillonnage stratifié. Techniques d’enquête, 41, 2, 451-467. Article accessible à l’adresse https://www150.statcan.gc.ca/n1/en/pub/12-001-x/2015002/article/14249-fra.pdf.
De Moura Brito, J.A.M., Maculan, N., Lila, M. et Montenegro, F. (2010b). An exact algorithm for the stratification problem with proportional allocation. Optimization Letters, 4, 185-195.
De Moura Brito, J.A.M., Ochi, L., Montenegro, F. et Maculan, N. (2010a). An iterative local search approach applied to the optimal stratification problem. International Transactions in Operational Research, 17, 6, 753-764.
De Moura Brito, J.A.M., Silva Semaan, G., Fadel, A. et Brito, L.R. (2017b). An optimization approach applied to the optimal stratification problem. Communications in Statistics: Simulation and Computation, 46, 4419-4451.
Ekman, G. (1959). An approximation useful in univariate stratification. The Annals of Mathematical Statistics, 30, 1, 219-229.
Er, S. (2011). Comparison of the efficiency of the various algorithms in stratified sampling when the initial solutions are determined with geometric method. International Journal of Statistics and Applications, 1, 1, 1-10.
Er, S., Keskintürk, T. et Daly, C. (2010). GA4Stratification: A genetic algorithm approach to determine stratum boundaries and sample sizes of each stratum in stratified sampling. Package R version 1.0. http://CRAN.R-project.org/package=stratification.
Festa, P. (2013). A biased random-key genetic algorithm for data clustering. SI:BIOCOMP, Math. Biosci., 245, 1, 76-85.
Gonçalves, J.F., et Resende, M.G.C. (2004). An evolutionary algorithm for manufacturing cell formation. Comput. Ind. Eng, 47, 247-273.
Gonçalves, J.F., et Resende, M. (2011). Biased random-key genetic algorithms for combinatorial optimization. Journal of Heuristics, 17, 487-525.
Gonçalves, J.F., Mendes, J.J.M. et Resende, M.G.C. (2005). A hybrid genetic algorithm for the job shop scheduling problem. Eur. J. Oper. Res, 167, 77-95.
Gunning, P., et Horgan, J.M. (2004). Un nouvel algorithme pour la construction de bornes de stratification dans les populations asymétriques. Techniques d’enquête, 30, 2, 177-185. Article accessible à l’adresse https://www150.statcan.gc.ca/n1/en/pub/12-001-x/2004002/article/7749-fra.pdf.
Hedlin, D. (2000). A procedure for stratification by an extended Ekman rule. Journal of Official Statistics, 16, 15-29.
Hidiroglou, M.A. (1986). The construction of a self-representing stratum of large units in survey design. The American Statistician, 1, 40, 27-31.
Hidiroglou, M.A., et Kozak, M. (2017). Stratification of skewed populations: A comparison of optimisation-based versus approximate methods. Revue Internationale de Statistique, https://doi.org/10.1111/insr.12230.
Keskintürk, T., et Er, S. (2007). A genetic algorithm approach to determine stratum boundaries and sample sizes of each stratum in stratified sampling. Computational Statistics & Data Analysis, 52, 53-67.
Khan, M.G.M., Nand, N. et Ahmad, N. (2008). Détermination des bornes optimales de strate au moyen de la programmation dynamique. Techniques d’enquête, 34, 2, 227-236. Article accessible à l’adresse https://www150.statcan.gc.ca/n1/en/pub/12-001-x/2008002/article/10761-fra.pdf.
Kozak, M. (2004). Optimal stratification using random search method in agricultural surveys. Statistics in Transition, 6, 5, 797-806.
Kozak, M. (2006). Multivariate sample allocation: Application of a random search method. Statistics in Transition, 7, 4, 889-900.
Kozak, M. (2014). Comparison of random search method and genetic algorithm for stratification. Communications in Statistics – Simulation and Computation, 43, 2, 249-253.
Kozak, M., et Verma, M.R. (2006). Approche de la stratification par une méthode géométrique et par optimisation : une comparaison de l’efficacité. Techniques d’enquête, 32, 2, 177-183. Article accessible à l’adresse https://www150.statcan.gc.ca/n1/en/pub/12-001-x/2006002/article/9550-fra.pdf.
Lavallée, P., et Hidiroglou, M.A. (1988). Sur la stratification de populations asymétriques. Techniques d’enquête, 14, 1, 35-45. Article accessible à l’adresse https://www150.statcan.gc.ca/n1/en/pub/12-001-x/1988001/article/14602-fra.pdf.
Lohr, S. (2010). Sampling: Design and Analysis, 2nd Ed. Washington: Duxbury Press.
Oliveira, R.M., Chaves, A.A. et Lorena, L.A.N. (2017). A comparison of two hybrid methods for constrained clustering problems. Applied Soft Computing, 54, 256-266.
Rao, D.K., Khan, M.G.M. et Reddy, K.G. (2014). Optimum stratification of a skewed population. International Journal of Mathematical, Computational, Physical and Quantum Engineering, 8, 3, 497-500.
Rivest, L.-P. (2002). Une généralisation de l’algorithme de Lavallée et Hidiroglou pour la stratification dans les enquêtes auprès des entreprises. Techniques d’enquête, 28, 2, 207-214. Article accessible à l’adresse https://www150.statcan.gc.ca/n1/en/pub/12-001-x/2002002/article/6432-fra.pdf.
Särndal, C.-E., Swensson, B. et Wretman, J. (1992). Model Assisted Survey Sampling, New York: Springer Verlag.
Spears, W., et De Jong, K. (1991). On the virtues of parameterized uniform crossover. Dans Proceedings of the Fourth International Conference on Genetic Algorithms, 230-236.
- Date de modification :