Un algorithme d’optimisation appliqué au problème de stratification unidimensionnelle
Section 4. Algorithme génétique biaisé à clés aléatoires

Table des matières

L’algorithme génétique biaisé à clés aléatoires (appelé BRKGA dans la suite de notre exposé), que proposent Gonçalves et Resende (2011), est une méthode métaheuristique qui a été appliquée à plusieurs problèmes d’optimisation. Voir Festa (2013) et Oliveira et coll. (2017), par exemple. Le principe sous-tendant cette méthode rappelle la théorie biologique de l’évolution des espèces.

L’algorithme prend une « population » initiale de solutions possibles au problème cible, laquelle vient d’un mécanisme aléatoire spécifié. Cette population évolue ensuite au gré des itérations en conservant les meilleures solutions disponibles à chaque itération (solutions retenues) et en remplaçant les solutions non retenues par des solutions produites par perturbation aléatoire et évoquant les croisements et les mutations des populations naturelles. Au fil des itérations, les solutions sont conservées ou évoluent selon la valeur de la fonction à optimiser.

Dans l’algorithme BRKGA, les solutions candidates sont codées, c’est-à-dire sont représentées par des vecteurs dont les éléments sont des nombres dans l’intervalle $(0; 1) .$ Avec un vecteur observé, une procédure de décodage doit être appliquée. Cette procédure fait correspondre la valeur d’un vecteur à une solution possible du problème d’optimisation cible. C’est ce qui relie l’algorithme au problème d’optimisation précis à traiter. La figure 4.1 présente le pseudocode d’un algorithme BRKGA générique.

La démarche est décrite et illustrée en détail à la section 4.1 avec un exemple de problème de stratification unidimensionnelle et une description de toutes les étapes à la figure 4.1.

Figure 4.1 Pseudocode pour un algorithme BRKGA

Description de la figure 4.1

Figure présentant le pseudo-code pour un algorithme BRKGA.

On génère la population initiale composée de $p$ vecteurs aléatoires (clés) $v,$ où chaque valeur est tirée aléatoirement de la distribution uniforme $[0; 1] .$
On applique la procédure de décodage à chaque vecteur $v$ de la population, ce qui donne $p$ solutions possibles du problème d’optimisation.
On calcule la valeur de la fonction objective pour chaque solution dans la population.
On choisit les $p_{e} (1 < p_{e} < p)$ meilleures solutions (appelées solutions retenues) selon les valeurs de la fonction objective et les ajoute à la population à considérer à l’itération suivante.
On génère $p_{m} (1 < p_{m} < p)$ nouveaux vecteurs aléatoires comme à l’étape 1), ce qu’on appelle les mutations, et les ajoute à la population à considérer à l’itération suivante.
On génère les $(p - p_{e} - p_{m})$ vecteurs restants appelés croisements pour compléter la population qui sera considérée à l’itération suivante, et ce, en croisant un des $p_{e}$ vecteurs d’une solution retenue avec un des $(p - p_{e})$ vecteurs d’une des solutions non retenues à la présente itération.
On fait des itérations à partir de l’étape 2) tant que les critères d’arrêt ne sont pas remplis.

4.1 Algorithme BRKGA pour le problème de stratification unidimensionnelle

On considère d’abord le vecteur de population $X_{U} = {x_{1}, x_{2}, \dots, x_{N}}$ et calcule l’ensemble $C = {c_{1}, c_{2}, \dots, c_{K}}$ contenant les $K$ valeurs distinctes de $x$ observées dans la population. Si $X_{U} = {1, 3, 3, 5, 6, 7, 7, 7, 8, 9, 10, 10, 11},$ par exemple, $C = {1, 3, 5, 6, 7, 8, 9, 10, 11} .$ Si $K > 100,$ nous calculons les dix percentiles supérieurs de $x$ pour dégager l’ensemble $Q = {q_{90}, q_{91}, \dots, q_{99}, q_{100}} .$ Si $K \leq 100,$ nous calculons les percentiles choisis de $x$ pour dégager l’ensemble $Q = {q_{5}, q_{10}, \dots, q_{95}, q_{100}} .$ Nous avons retenu le point de démarcation de 100 pour $K$ après une certaine expérimentation initiale de notre méthode avec quelques-unes des populations considérées dans l’expérience numérique que nous décrivons à la section 5. Les définitions autres de l’ensemble $Q$ aident à diversifier le jeu de solutions possibles issu de l’algorithme BRKGA.

Dans l’application de l’algorithme au problème de stratification unidimensionnelle, chaque solution est représentée par un vecteur $v = {v_{1}, \dots, v_{H}}$ à $H$ positions où les $H - 1$ premières positions contiennent des valeurs entre 0 et 1 et où la position $H$ reçoit la valeur d’un percentile de la distribution de la variable de stratification $x .$

Nous prenons ensuite $x_{\min}$ comme valeur la plus petite de $C$ et $v_{H}$ comme élément choisi au hasard dans $Q .$ À la première itération, nous tirons les valeurs des $H - 1$ premières positions de chaque vecteur $v$ indépendamment de la distribution uniforme $[0; 1] .$

La procédure de décodage permettant de dégager de chaque vecteur $v$ généré une solution du problème de stratification unidimensionnelle se définit ainsi :

$b_{h} = x_{\min} + v_{h} (v_{H} - x_{\min}) pour h = 1, \dots, H - 1. (4.1)$

Une fois obtenues les $H - 1$ premières valeurs pour $b_{h},$ celles-ci doivent être mises par ordre croissant de sorte que les éléments du vecteur résultant $b = (b_{(1)}, b_{(2)}, \dots, b_{(H - 1)})$ forment les bornes de solution pour le vecteur $v$ correspondant, $b_{(h)}$ étant la statistique de $h^{e}$ ordre des valeurs $b_{1}, \dots, b_{H - 1}$ calculées en (4.1).

Pour citer un exemple de décodage, supposons que $H = 4,$ $x_{\min} = 10,$ $K = 300,$ $Q = {200; 215; 280,5; 300; 318; 400; 425; 478; 500; 510} .$ Considérons aussi le vecteur $v = (0,48; 0,35; 0,20)$ généré comme nous l’avons décrit. Il s’ensuit que $b_{1} = 10 + 0,48 \times (200 - 10)$ que $b_{2} = 10 + 0,35 \times (200 - 10)$ et que $b_{3} = 10 + 0,20 \times (200 - 10) .$ Après tri, on obtient alors $b = (48; 76,5; 101,2) .$

Le vecteur $b$ étant donné, les valeurs de $N_{h}$ et $S_{h x}^{2}$ s’obtiennent facilement pour chacune des $H$ strates. Nous dégageons les valeurs des tailles d’échantillon $n_{h}$ pour les diverses strates en appliquant la méthode de répartition optimale proposée par de Moura Brito et coll. (2015). Nous calculons ainsi les tailles d’échantillon $n_{h}$ de manière à minimiser une somme pondérée des variances (ou des CV) des estimateurs des totaux de $m$ variables d’enquête, la taille totale d’échantillon $n$ étant fixe.

Comme nous prenons ici comme cible de la minimisation la variance de l’estimateur pour le total de la variable de stratification $x,$ nous posons $m = 1$ et utilisons la formulation (D) qui vient de de Moura Brito et coll. (2015) pour résoudre le problème de répartition optimale unidimensionnelle avec l’équation (2.6) comme variance à minimiser. À noter que cette méthode donne l’optimum global pour le problème de répartition.

Nous poursuivons avec l’algorithme selon la figure 4.1 en générant un ensemble initial de $p$ vecteurs $v .$ À l’étape 2, nous décodons chacun de ces vecteurs $v$ pour dégager une solution possible $b$ du problème de stratification optimale. À l’étape 3, nous obtenons la répartition optimale correspondant à $b$ et calculons la valeur de la fonction objective. Nous exécutons ensuite les étapes 4 à 6 pour trouver la population suivante de solutions possibles et reprenons la procédure jusqu’à ce que les critères d’arrêt soient remplis. À l’étape 4, nous dégageons les $p_{e}$ solutions retenues et les ajoutons à la population suivante. À l’étape 5, nous produisons $p_{m}$ mutations et les ajoutons à la population suivante. À l’étape 6, nous produisons $(p - p_{e} - p_{m})$ croisements à l’aide de l’opérateur de « croisement uniforme » proposé par Spears et De Jong (1991) pour tirer un nouveau vecteur $v$ d’une des $p_{e}$ solutions retenues et d’une des $(p - p_{e} - p_{m})$ solutions non retenues actuelles. Nous procédons ainsi : une fois choisis les deux vecteurs $(v_{e}$ et $v_{n})$ à croiser, nous générons un vecteur auxiliaire à clés aléatoires $(v_{a})$ avec des tirages indépendants de la distribution uniforme $[0; 1] .$ Soit $r_{c} > 0,5$ une probabilité préspécifiée qu’une valeur soit copiée du vecteur retenu $v_{e} .$ Nous formons alors le vecteur croisé $v_{c}$ en en tirant les valeurs de $v_{e}$ aux positions où la valeur correspondante dans $v_{a}$ est moindre que $r_{c}$ (ce qui équivaut à 0,7 dans l’exemple de la figure 4.2) et de $v_{n}$ à toutes les autres positions.

Pour produire chacun des $(p - p_{e} - p_{m})$ vecteurs de la génération suivante, l’algorithme choisit un vecteur $v_{e}$ au hasard (par la fonction d’échantillon en $R)$ dans les $p_{e}$ vecteurs retenus et un autre vecteur $v_{n}$ dans les $p - p_{e}$ vecteurs non retenus et il croise les vecteurs ainsi obtenus. La sélection des vecteurs à partir des deux sous-ensembles se fait avec remise, ce qui implique que, individuellement, des vecteurs retenus ou non retenus peuvent être sélectionnés pour être croisés plus d’une fois.

Figure 4.2 Croisement uniforme avec rc=0,7

Description de la figure 4.2

Tableau présentant le croisement uniforme avec $r_{c} = 0,7 .$

Tableau
Figure 4.2
Sommaire du tableau
Le tableau montre les résultats de Figure 4.2. Les données sont présentées selon Vecteurs\positions (titres de rangée) et 1, 2 et 3(figurant comme en-tête de colonne).
Vecteurs\positions	1	2	3
$v_{e}$	0,31	0,77	0,65
$v_{n}$	0,26	0,18	0,36
$v_{a}$	0,58	0,89	0,11
$v_{c}$	0,31	0,18	0,65

Prenons maintenant un exemple avec $H = 4,$ $x_{\min} = 10,$ $K = 300,$ $p = 8,$ $p_{e} = 3,$ $p_{m} = 3,$ $r_{c} = 0,7$ et $Q = {200; 215; 280,5; 300; 318; 400; 425; 478; 500; 510} .$ La figure 4.3 illustre l’application de toutes les étapes de l’algorithme au problème de stratification unidimensionnelle pour deux itérations consécutives de cet algorithme.

Nous avons mis en œuvre dans le package stratbr en R disponible à partir de CRAN (voir de Moura Brito et coll., 2017a) l’approche BRKGA ici décrite du problème de stratification optimale unidimensionnelle. Le package a permis d’obtenir tous les résultats présentés à la section 5.

Figure 4.3 Illustration de la méthode BRKGA de stratification optimale

Description de la figure 4.3

Diagramme illustrant l’application de toutes les étapes de l’algorithme BRKGA au problème de stratification unidimensionnelle pour deux itérations consécutives de cet algorithme. Les étapes sont la génération de la population initiale, le décodage, le calcul de la fonction objective, l’ordre, la production des solutions retenues et non retenues, la génération des mutations et des croisements, la production de la nouvelle population et ensuite, on itère à nouveau à partir de l’étape de décodage jusqu’à ce qu’on atteigne le critère d’arrêt.

ISSN : 1712-5685

Politique de rédaction

Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.

Présentation de textes pour la revue

Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).

Note de reconnaissance

Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.

Normes de service à la clientèle

Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.

Droit d'auteur

Publication autorisée par le ministre responsable de Statistique Canada.

L'utilisation de la présente publication est assujettie aux modalités de l'Entente de licence ouverte de Statistique Canada.

N° 12-001-X au catalogue

Périodicité : semi-annuel

Ottawa

Date de modification :: 2019-07-04

Sélection de la langue

Recherche et menus

Recherche

Un algorithme d’optimisation appliqué au problème de stratification unidimensionnelle
Section 4. Algorithme génétique biaisé à clés aléatoires

4.1 Algorithme BRKGA pour le problème de stratification unidimensionnelle

Un algorithme d’optimisation appliqué au problème de stratification unidimensionnelle Section 4. Algorithme génétique biaisé à clés aléatoires

4.1 Algorithme BRKGA pour le problème de stratification unidimensionnelle

Politique de rédaction

Présentation de textes pour la revue

Note de reconnaissance

Normes de service à la clientèle

Droit d'auteur

Un algorithme d’optimisation appliqué au problème de stratification unidimensionnelle
Section 4. Algorithme génétique biaisé à clés aléatoires