Un algorithme d’optimisation appliqué au problème de stratification unidimensionnelle
Section 1. Introduction
L’échantillonnage stratifié est une méthode largement employée pour accroître l’efficacité des plans d’échantillonnage. Les études abondent sur la stratification optimale (qui sera examinée plus loin dans le présent document), ce qui témoigne à la fois de l’importance de ce sujet pour les chercheurs et de sa vaste gamme d’applications. Récemment, Hidiroglou et Kozak (2017) ont comparé des méthodes d’optimisation et d’approximation pour la stratification unidimensionnelle de populations asymétriques pour conclure que les méthodes d’optimisation sont supérieures et devraient s’employer dans la pratique.
Nous proposons d’appliquer un nouvel algorithme d’optimisation pour établir les bornes de strate, ce que nous combinons à une méthode globalement optimale de répartition de taille d’échantillon entre les strates définies. Nous traitons le problème de stratification unidimensionnelle au moyen d’une technique d’optimisation globale (métaheuristique) appelée algorithme génétique biaisé à clés aléatoires (BRKGA), laquelle a été proposée par Gonçalves et Resende (2011). Cette technique n’est pas garante d’un optimum global pour les bornes de strate, mais on a démontré qu’elle engendre des solutions de bonne qualité pour de nombreux problèmes d’optimisation à un prix modeste en temps de calcul (voir Gonçalves et Resende, 2004; Gonçalves, Mendes et Resende, 2005; Festa, 2013; Oliveira, Chaves et Lorena, 2017).
Notre méthode de répartition de l’échantillon en fonction d’une stratification définie (voir de Moura Brito et coll., 2015), c’est-à-dire d’une stratification avec une variable spécifiée et un nombre donné de strates, est fondée sur une formulation en programmation en nombres entiers et dégage toujours un optimum global en minimisant soit la taille totale de l’échantillon en tenant compte de contraintes de précision, soit la variance pour une taille totale d’échantillon fixe, tout en assurant une répartition de l’échantillon en nombres entiers et en permettant la spécification des bornes inférieure et supérieure de taille d’échantillon par strate, comme on a souvent à le faire dans les applications pratiques. Cette méthode est appliquée avec le package stratbr en R (voir de Moura Brito et coll., 2017a), constituant ainsi une solution de rechange pratique aux méthodes existantes par approximation et se révélant clairement plus efficace. Elle se compare aussi favorablement à d’autres méthodes d’optimisation qui ne garantissent pas une répartition optimale en fonction de la stratification.
Nous avons comparé cette nouvelle méthode à celles que proposent Dalenius et Hodges (1959), Gunning et Horgan (2004), Kozak (2004, 2006), Keskintürk et Er (2007) et de Moura Brito, Silva Semaan, Fadel et Brito (2017b) à l’aide de 27 populations d’enquête réelles ou artificielles. Notre étude empirique est bien plus large que celle d’Hidiroglou et Kozak (2017), qui n’ont utilisé que deux populations dans leur comparaison. Elle est aussi plus large que les autres études du passé.
Nous n’avons pas envisagé comme il est indiqué de comparer notre méthode aux arbres de classification ou de régression ou à d’autres algorithmes d’apprentissage machine qui synthétisent une ou plusieurs covariables en formant des groupes pouvant servir de strates. La grande raison en est que, avec de telles méthodes, on ne considère pas la variance de l’estimateur de l’échantillon cible ni à la taille d’échantillon en tenant compte de contraintes de précision en tant que critères d’optimisation. Il leur serait donc impossible de dégager l’optimum dans le problème que nous désirons traiter. Précisons que, dans les arbres de classification ou de régression, l’analyste doit toujours spécifier une « variable de réponse » s’ajoutant aux variables prédictives ou auxiliaires. Dans bien des cas types d’échantillonnage, l’analyste n’a pas accès à des données sur une telle « variable de réponse » et doit plutôt viser à minimiser la variance de l’estimateur pour la taille totale ou la variable de stratification (comme c’est le cas dans la plupart des études consacrées à ce thème).
Nous avons seulement considéré le « problème de stratification unidimensionnelle », signifiant qu’une seule mesure de taille est utilisée pour la stratification, mais il est toujours possible d’employer un modèle prédictif ou une autre technique de réduction de variable pour récapituler les variables ou les covariables auxiliaires en une variable unique ou variable de taille aux fins de la méthode que nous proposons. Notre approche pourrait néanmoins être étendue à une stratification multidimensionnelle avec répartition optimale selon la nature des composantes de l’approche.
Nous avons structuré notre article de la manière suivante : la section 2 énonce les concepts clés de l’échantillonnage stratifié; la section 3 décrit en détail le problème de stratification; la section 4 présente l’algorithme génétique biaisé à clés aléatoires (BRKGA) et son application nouvelle à notre problème de stratification en combinaison avec la méthode de répartition optimale proposée par de Moura Brito et coll. (2015); la section 5 livre les résultats de l’application de la méthode proposée par rapport à cinq autres méthodes figurant dans la documentation spécialisée, comme nous l’avons indiqué; la section 6 tire enfin des conclusions de cette analyse comparative.
- Date de modification :