Un algorithme d’optimisation appliqué au problème de stratification unidimensionnelle
Section 3. Le problème de stratification unidimensionnelle

Table des matières

Considérons le vecteur de population $X_{U} = {x_{1}, x_{2}, \dots, x_{N}}$ correspondant à la variable de stratification $x .$ Sans perte de généralité, nous posons que les éléments de population dans $U$ sont ordonnés par la variable de stratification, de sorte que $x_{1} \leq x_{2} \leq \dots \leq x_{N} .$ Nous faisons intervenir les bornes de strate pour définir les $H$ strates par la règle suivante :

$U_{1} = {i \in U | x_{i} \leq b_{1}};$
$U_{h} = {i \in U | b_{h - 1} < x_{i} \leq b_{h}}$ pour $h = 2, 3, \dots, H - 1;$
$U_{H} = {i \in U | b_{H - 1} < x_{i}} .$

Le problème de stratification se ramène à une détermination des points de démarcation, c’est-à-dire des bornes de strate $b_{1} < b_{2} < \dots < b_{h} < \dots < b_{H - 1}$ avec minimisation de la variance (ou du CV d’une manière équivalente) de l’estimateur de ${\hat{Y}}_{EASS}$ total. Dans cette section, nous considérons que le nombre total de strates $H$ est défini avant toute application des méthodes de stratification optimale examinées.

Dans la pratique, nous ne disposons pas des valeurs de la variable d’enquête $y$ et, par conséquent, la variance n’est pas calculable dans l’expression (2.3). Une méthode courante consiste à minimiser plutôt la variance (ou le CV) de l’estimateur ${\hat{X}}_{EASS}$ pour le total de la variable de stratification $x .$ Un certain nombre d’auteurs ont conçu des méthodes qui s’attachent à ce problème d’optimisation que nous appellerons désormais « problème de stratification unidimensionnelle ». Nous adoptons la même orientation ici.

Trouver les bornes qui minimisent la variance (2.6) ou le CV (2.7) représente un problème difficile tant en analyse qu’en calcul, et ce, parce que les tailles de population et d’échantillon en nombres entiers $(N_{h}$ et $n_{h}$ respectivement) dépendent non linéairement des bornes des strates. D’après de Moura Brito, Ochi, Montenegro et Maculan (2010a), le nombre de possibilités pour les bornes peut être trés large, car dépendent de $N,$ $H$ et du nombre de valeurs distinctes $x$ dans la population.

Vu cette difficulté, on a conçu diverses méthodes dans les dernières décennies pour trouver des bornes optimales de strate, le but étant de dégager au moins des solutions correspondant à des minima locaux de bonne qualité.

Dalenius (1951) s’est attaqué au problème dans le cas $H = 2$ en approchant la variance en (2.6) sans tenir compte de la correction de population finie, ce qui équivaut à supposer que l’échantillonnage intrastrate aurait été un échantillonnage aléatoire simple avec remise. La variance approximative à minimiser est alors donnée par :

$Var ({\hat{X}}_{EASS}) ≅ \sum_{h = 1}^{H} N_{h}^{2} S_{h x}^{2} / n_{h} . (3.1)$

Dans une répartition de Neyman (Cochran, 1977) par la variable $x$ et avec remplacement des tailles d’échantillon $n_{h}$ en (3.1) par leurs valeurs théoriques $n_{h} = N_{h} S_{h x} / \sum_{k = 1}^{H} N_{k} S_{k x},$ on obtient l’expression employée par Dalenius (1951) :

$Var ({\hat{X}}_{EASS}) ≅ {(\sum_{h = 1}^{H} N_{h} S_{h x})}^{2} / n . (3.2)$

Dalenius et Hodges (1959) ont regardé le cas $H > 2,$ et offert une solution analytique consistant à approcher la distribution de la variable $x$ par son histogramme comportant un nombre modéré de classes. En prenant toujours la variance approximative et en posant une répartition de Neyman, Ekman (1959) a proposé une solution avec une approche géométrique pour trouver les bornes de strate. Hedlin (2000) a élargi la solution d’Ekman en retenant la variance initiale (2.6) comme la fonction à minimiser, ce qu’il a appelé la règle élargie d’Ekman.

Hidiroglou (1986) a avancé une approche qui spécifie d’avance la précision recherchée (CV) de l’estimateur du total et qui divise la population en deux strates $(H = 2)$ de sorte que la taille totale de l’échantillon $n$ soit minimisée. Dans cette étude, la seconde strate est à tirage complet ou « à certitude », tous les éléments étant compris dans l’échantillon avec l’unité comme probabilité $(n_{2} = N_{2}) .$ Lavallée et Hidiroglou (1988) ont généralisé cette méthode au cas $H > 2,$ tout en conservant l’idée que la strate contenant le plus grand nombre d’unités de population doive être à échantillonnage complet. Ils adoptaient dans cette optique une répartition spéciale dite de puissance (Bankier, 1988). Plus récemment, Rivest (2002) a encore généralisé la méthode de Lavallée et Hidiroglou (1988) en considérant que le but est de minimiser la variance de l’estimateur d’un total pour une prévision de modélisation de la variable d’enquête $y$ au lieu de la variable de stratification $x .$

Gunning et Horgan (2004) ont proposé ce qu’on appelle la méthode géométrique de définition des bornes de strate. Dans cette méthode, on pose que les CV de la variable de stratification $x$ sont approximativement constants et que la distribution de la variable de stratification est approximativement uniforme dans chaque strate. Selon ces hypothèses, l’optimum des bornes de strate formerait une progression géométrique, menant de la sorte à une solution analytique très simple.

Keskintürk et Er (2007) ont proposé une technique d’optimisation globale relevant de ce qu’on appelle les algorithmes génétiques. Dans le même ordre d’idées, de Moura Brito et coll. (2017b) ont appliqué une autre technique d’optimisation globale appelée GRASP au problème de stratification. Dans notre propos, nous avons pris le même chemin que Keskintürk et Er (2007), mais en opérant un choix efficace d’algorithme génétique appelé algorithme génétique biaisé à clés aléatoires (BRKGA) que nous décrivons à la section 4.

Kozak (2004) a proposé une méthode dite de recherche aléatoire reprise par Kozak et Verma (2006), celle-ci étant alors comparée à la méthode géométrique de Gunning et Horgan (2004). Khan, Nand et Ahmad (2008) ont exploité les idées de la programmation dynamique pour concevoir un algorithme qui détermine les bornes de strate en considérant que la variable de stratification est en distribution triangulaire ou normale et que l’échantillonnage intrastrate est avec remise. De Moura Brito, Maculan, Lila et Montenegro (2010b) ont proposé un algorithme exact reposant sur la théorie des graphes et où on pose une répartition proportionnelle entre les strates.

Er (2011) a fait une comparaison d’efficacité entre des méthodes figurant dans la documentation spécialisée en prenant comme solution initiale la méthode géométrique de Gunning et Horgan (2004). Kozak (2014) a comparé sa technique de recherche aléatoire à l’algorithme génétique proposé par Keskintürk et Er (2007). Rao, Khan et Reddy (2014) ont mis au point une méthode qui traite simultanément les problèmes de détermination des bornes de strate et de répartition entre les strates. Leur algorithme repose sur l’hypothèse selon laquelle la variable de stratification suit une distribution de Pareto. Notre optique est plus générale, et nous ne supposons pas que la variable de taille obéit à une distribution en particulier.

ISSN : 1712-5685

Politique de rédaction

Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.

Présentation de textes pour la revue

Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).

Note de reconnaissance

Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.

Normes de service à la clientèle

Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.

Droit d'auteur

Publication autorisée par le ministre responsable de Statistique Canada.

L'utilisation de la présente publication est assujettie aux modalités de l'Entente de licence ouverte de Statistique Canada.

N° 12-001-X au catalogue

Périodicité : semi-annuel

Ottawa

Date de modification :: 2019-07-04

Sélection de la langue

Recherche et menus

Recherche

Un algorithme d’optimisation appliqué au problème de stratification unidimensionnelle
Section 3. Le problème de stratification unidimensionnelle

Un algorithme d’optimisation appliqué au problème de stratification unidimensionnelle Section 3. Le problème de stratification unidimensionnelle

Politique de rédaction

Présentation de textes pour la revue

Note de reconnaissance

Normes de service à la clientèle

Droit d'auteur

Un algorithme d’optimisation appliqué au problème de stratification unidimensionnelle
Section 3. Le problème de stratification unidimensionnelle