Un algorithme d’optimisation appliqué au problème de stratification unidimensionnelle
Section 3. Le problème de stratification unidimensionnelle
Considérons le vecteur de population
correspondant à la variable de stratification
Sans perte de généralité, nous posons que les
éléments de population dans
sont ordonnés par la variable de
stratification, de sorte que
Nous faisons intervenir les bornes de strate
pour définir les
strates par la règle suivante :
-
pour
Le problème de stratification se ramène à
une détermination des points de démarcation, c’est-à-dire des bornes de strate
avec minimisation de la variance (ou du CV
d’une manière équivalente) de l’estimateur de
total. Dans cette section, nous considérons
que le nombre total de strates
est défini avant toute application des méthodes de stratification
optimale examinées.
Dans la pratique, nous ne disposons pas des
valeurs de la variable d’enquête
et,
par conséquent, la variance n’est pas calculable dans l’expression (2.3). Une
méthode courante consiste à minimiser plutôt la variance (ou le CV) de
l’estimateur
pour le total de la variable de stratification
Un
certain nombre d’auteurs ont conçu des méthodes qui s’attachent à ce problème
d’optimisation que nous appellerons désormais « problème de stratification
unidimensionnelle ». Nous adoptons la même orientation ici.
Trouver les bornes qui minimisent la
variance (2.6) ou le CV (2.7) représente un problème difficile tant en analyse
qu’en calcul, et ce, parce que les tailles de population et d’échantillon en nombres entiers
et
respectivement) dépendent non
linéairement des bornes des strates. D’après de Moura Brito, Ochi, Montenegro et Maculan
(2010a), le nombre de possibilités pour les bornes peut être trés large, car
dépendent de
et
du nombre de valeurs distinctes
dans la population.
Vu cette difficulté, on a conçu diverses
méthodes dans les dernières décennies pour trouver des bornes optimales de
strate, le but étant de dégager au moins des solutions correspondant à des
minima locaux de bonne qualité.
Dalenius (1951) s’est attaqué au problème
dans le cas
en approchant la variance en (2.6) sans tenir compte de la correction
de population finie, ce qui équivaut à supposer que l’échantillonnage
intrastrate aurait été un échantillonnage aléatoire simple avec remise. La
variance approximative à minimiser est alors donnée par :
Dans une répartition de Neyman (Cochran, 1977) par la variable
et avec remplacement des tailles
d’échantillon
en (3.1) par leurs valeurs théoriques
on obtient l’expression employée
par Dalenius (1951) :
Dalenius et
Hodges (1959) ont regardé le cas
et offert une solution analytique consistant à approcher la
distribution de la variable
par son histogramme comportant un nombre modéré de classes. En prenant
toujours la variance approximative et en posant une répartition de Neyman,
Ekman (1959) a proposé une solution avec une approche géométrique pour trouver
les bornes de strate. Hedlin (2000) a élargi la solution d’Ekman en retenant la
variance initiale (2.6) comme la fonction à minimiser, ce qu’il a appelé la
règle élargie d’Ekman.
Hidiroglou (1986) a avancé une approche
qui spécifie d’avance la précision recherchée (CV) de l’estimateur du total et
qui divise la population en deux strates
de sorte que la taille totale de l’échantillon
soit minimisée. Dans cette étude, la seconde
strate est à tirage complet ou « à certitude », tous les éléments
étant compris dans l’échantillon avec l’unité comme probabilité
Lavallée et Hidiroglou (1988) ont généralisé
cette méthode au cas
tout en conservant l’idée que la strate
contenant le plus grand nombre d’unités de population doive être à
échantillonnage complet. Ils adoptaient dans cette optique une répartition
spéciale dite de puissance (Bankier, 1988). Plus récemment, Rivest (2002) a
encore généralisé la méthode de Lavallée et Hidiroglou (1988) en considérant
que le but est de minimiser la variance de l’estimateur d’un total pour une
prévision de modélisation de la variable d’enquête
au
lieu de la variable de stratification
Gunning et Horgan (2004) ont proposé ce
qu’on appelle la méthode géométrique de définition des bornes de strate. Dans
cette méthode, on pose que les CV de la variable de stratification
sont approximativement constants et que la distribution
de la variable de stratification est approximativement uniforme dans chaque
strate. Selon ces hypothèses, l’optimum des bornes de strate formerait une
progression géométrique, menant de la sorte à une solution analytique très
simple.
Keskintürk et Er (2007) ont proposé une
technique d’optimisation globale relevant de ce qu’on appelle les algorithmes
génétiques. Dans le même ordre d’idées, de Moura Brito et coll.
(2017b) ont appliqué une autre technique d’optimisation globale appelée GRASP
au problème de stratification. Dans notre propos, nous avons pris le même
chemin que Keskintürk et Er (2007), mais en opérant un choix efficace
d’algorithme génétique appelé algorithme génétique biaisé à clés aléatoires
(BRKGA) que nous décrivons à la section 4.
Kozak (2004) a proposé une méthode dite de
recherche aléatoire reprise par Kozak et Verma (2006), celle-ci étant alors
comparée à la méthode géométrique de Gunning et Horgan (2004). Khan, Nand et Ahmad (2008) ont exploité les idées de la
programmation dynamique pour concevoir un algorithme qui détermine les bornes
de strate en considérant que la variable de
stratification est en distribution triangulaire ou normale et que
l’échantillonnage intrastrate est avec remise. De Moura Brito,
Maculan, Lila et Montenegro (2010b) ont proposé un algorithme exact reposant
sur la théorie des graphes et où on pose une répartition proportionnelle entre
les strates.
Er (2011) a fait une comparaison
d’efficacité entre des méthodes figurant dans la documentation spécialisée en
prenant comme solution initiale la méthode géométrique de Gunning et Horgan
(2004). Kozak (2014) a comparé sa technique de recherche aléatoire à
l’algorithme génétique proposé par Keskintürk et Er (2007). Rao, Khan et Reddy
(2014) ont mis au point une méthode qui traite simultanément les problèmes de
détermination des bornes de strate et de répartition entre les strates. Leur
algorithme repose sur l’hypothèse selon laquelle la variable de stratification
suit une distribution de Pareto. Notre optique est plus générale, et nous ne
supposons pas que la variable de taille obéit à une distribution en
particulier.
ISSN : 1712-5685
Politique de rédaction
Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.
Présentation de textes pour la revue
Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).
Note de reconnaissance
Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.
Normes de service à la clientèle
Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.
Droit d'auteur
Publication autorisée par le ministre responsable de Statistique Canada.
© Sa Majesté la Reine du chef du Canada, représentée par le ministre de l’Industrie 2019
L'utilisation de la présente publication est assujettie aux modalités de l'Entente de licence ouverte de Statistique Canada.
N° 12-001-X au catalogue
Périodicité : semi-annuel
Ottawa