5 Une application : l'Enquête italienne sur la structure des exploitations agricoles (ESEA)

Marco Ballin et Giulio Barcaroli

La base de sondage utilisée pour la sélection de l'échantillon de l'Enquête italienne sur la structure des exploitations agricoles de 2003 (ESEA) contient 2 153 710 exploitations agricoles. Pour l'établissement du plan de sondage de l'ESEA, les variables auxiliaires prises en considération sont les suivantes :

régions (21 valeurs différentes);
provinces (103 valeurs différentes);
statut juridique (2 classes);
secteur d'activité économique (9 classes);
unités de dimension économique (3 classes);
superficie agricole utilisée (3 classes);
unités de bétail (3 classes);
altimétrie du siège social de l'exploitation agricole (5 classes).

Quatorze variables cibles distinctes ont été prises en considération comme étant la cible principale de l'ESEA, pour lesquelles les niveaux de précision requis (en ce qui concerne la valeur maximale du coefficient de variation) ont été fixés à l'échelle régionale (domaines d'intérêt). La liste des variables et des contraintes de précision connexe est présentée au tableau 5.1.

Les 8 variables auxiliaires ainsi que les 14 variables cibles ont été observées durant le recensement de l'agriculture précédent de 2000, de sorte que leurs valeurs sont disponibles pour chaque unité présente dans la base de sondage. Il est donc possible de calculer les moyennes et les écarts-types se rapportant à n'importe quelle strate définie.

Pour commencer, nous décrivons la procédure « manuelle » courante suivie en 2003 pour choisir la stratification la plus appropriée pour sélectionner l'échantillon.

Configuration manuelle des strates de 2003 pour sélectionner l'échantillon de l'ESEA

À la première étape, on a défini une strate à tirage complet dans chaque région sur la base des caractéristiques locales. Les seuils pour la définition des strates à tirage complet ont été déterminés en appliquant la méthode de Hidiroglou (1986).

À la deuxième étape, on a effectué un choix entre une stratification fondée sur les provinces ou sur la région dans son ensemble, région par région, en se basant sur des considérations organisationnelles locales.

À la troisième étape, les six autres variables ont été utilisées l'une après l'autre dans chaque région ou province (selon le résultat obtenu à la deuxième étape) comme variables de stratification. Pour chacune de ces options de stratification, on a calculé la taille optimale d'échantillon (la taille minimale d'échantillon dans chaque strate a été fixée à 50) (dans la fonction de coût, le coût fixe a été égalé à 0 et les coûts variables ont été fixés à 1 dans chaque strate atomique : donc, la fonction de coût coïncide avec la taille totale d'échantillon). La stratification donnant lieu à la taille globale d'échantillon minimale dans chaque région (habituellement définie sur différentes variables) a été considérée comme la sortie de cette étape.

À la quatrième étape, les cinq variables restantes ont été utilisées séparément pour affiner la stratification obtenue antérieurement. Pour chacune de ces spécifications affinées, la taille optimale d'échantillon a été calculée en considérant les mêmes contraintes que celles utilisées à l'étape 3.

Cette procédure par étape a été répétée sur une base régionale, en affinant la meilleure stratification obtenue à chaque étape en se servant des variables disponibles restantes jusqu'à ce que la stratification obtenue s'avère être moins efficace que la stratification de l'étape précédente.

De cette façon, la valeur totale de la taille d'échantillon planifiée a été fixée à 42 465 unités (en fait, la taille d'échantillon utilisée pour l'ESEA de 2003 a été portée à 52 713 afin d'obtenir de meilleures estimations au niveau national. Ici, nous considérons le chiffre de 42 465 afin que soit correcte la comparaison avec les résultats obtenus au moyen de l'algorithme génétique).

Utilisation de l'algorithme génétique pour déterminer les strates optimales et la meilleure répartition de l'échantillon

La stratification la plus détaillée disponible de la base de sondage, obtenue sous forme du produit cartésien de toutes les variables auxiliaires, comprend 24 454 strates distinctes, dont 1 787 sont définies comme étant des strates à tirage complet. Donc, les strates atomiques sont données par les 22 667 strates d'échantillonnage obtenues en soustrayant les 1 787 strates à tirage complet. Ces dernières sont regroupées en une seule strate, dont les 6 971 unités seront toujours sélectionnées quel que soit l'échantillon.

En fait, l'une des variables auxiliaires, région, est considérée comme la variable de domaine. Donc, notre tâche consiste à optimiser la stratification de la base de sondage et la répartition de l'échantillon séparément pour chacune des 21 régions de l'Italie. Par exemple, la première région (Piémont) est caractérisée par 105 074 unités dans 1 646 strates d'échantillonnage, et 597 unités dans 129 strates à tirage complet.

Les contraintes de précision (de nouveau exprimées en fonction des limites supérieures des coefficients de variation) ont été fixées, pour chacune des 14 variables cibles distinctes, aux mêmes valeurs que celles choisies durant la configuration manuelle des strates exécutée pour l'enquête de 2003 : ces limites sont 5 %, 6 % ou 10 % pour les variables les plus importantes dans chaque région. Le tableau 5.1 donne le jeu complet de coefficients de variation utilisé pour planifier l'ESEA de 2003.

Tableau 5.1
Coefficients de variation maximaux prévus (%) utilisés pour l'ESEA de 2003
Sommaire du tableau
Le tableau montre les coefficients de variation maximaux prévus (%) utilisés pour l'ESEA de 2003. Les données sont présentées selon Région (titres de rangée) et Céréales, Cultures industrielles, Légumes frais, Fleurs, Vignobles, Olives, Agrumes, Fruits, Bovins, Porcins, Ovins, Unités de dimension économique, Superficie agricole utilisée, Unités de bétail (figurant comme en-tête de colonne).
Région	Céréales	Cultures industrielles	Légumes frais	Fleurs	Vignobles	Olives	Agrumes	Fruits	Bovins	Porcins	Ovins	Unités de dimension économique	Superficie agricole utilisée	Unités de bétail
Piémont	5,0	10,0			5,0				5,0			5,0	6,0	6,0
Vallée d'Aoste									5,0			5,0	6,0	6,0
Lombardie	5,0	10,0							5,0	5,0		5,0	6,0	6,0
Bolzano								5,0				5,0	6,0	6,0
Trente								5,0				5,0	6,0	6,0
Vénétie	5,0	10,0			5,0					5,0		5,0	6,0	6,0
Frioul-VJ	5,0	10,0										5,0	6,0	6,0
Ligurie				5,0								5,0	6,0	6,0
Émilie-Romagne	5,0	10,0			5,0			5,0	5,0	5,0		5,0	6,0	6,0
Toscane	5,0	10,0			5,0							5,0	6,0	6,0
Ombrie						5,0						5,0	6,0	6,0
Marches												5,0	6,0	6,0
Latium	5,0		5,0		5,0	5,0						5,0	6,0	6,0
Abruzzes						5,0						5,0	6,0	6,0
Molise						5,0						5,0	6,0	6,0
Campanie	5,0	10,0	5,0			5,0		5,0				5,0	6,0	6,0
Pouilles	5,0		5,0		5,0	5,0						5,0	6,0	6,0
Basilicate	5,0											5,0	6,0	6,0
Calabre	5,0					5,0	5,0					5,0	6,0	6,0
Sicile	5,0		5,0		5,0	5,0	5,0				5,0	5,0	6,0	6,0
Sardaigne	5,0										5,0	5,0	6,0	6,0

Le tableau 5.2 donne les résultats des deux solutions en ce qui concerne la taille requise d'échantillon : celle prévue en 2003 par le spécialiste chargé de la conception de l'échantillon de l'ESEA (colonne 6) et celle obtenue en appliquant l'algorithme génétique (colonne 7).

Tableau 5.2
Détermination de la taille de l'échantillon de l'ESEA de 2003 : comparaison des résultats
Sommaire du tableau
Le tableau montre la détermination de la taille de l'échantillon de l'ESEA de 2003 : comparaison des résultats. Les données sont présentées selon région (titres de rangée) et (2) Nombre total d'unités dans la base de sondage, (3) Nombre de strates atomiques d'échantil-lonnage dans la base de sondage, (4) Nombre d'unités dans les strates d'échantillonnage, (5) Nombre d'unités dans les strates à tirage complet, (6) Taille de l'échantillon selon la stratification de 2003, (7) Taille de l'échantillon selon la solution de l'algorithme génétique, (8) Nombre de strates dans la solution de l'AG, (9) Différence relative en % (7) c. (6) (figurant comme en-tête de colonne).
(1) Domaine (région)	(2) Nombre total d'unités dans la base de sondage	(3) Nombre de strates atomiques d'échantil-lonnage dans la base de sondage	(4) Nombre d'unités dans les strates d'échantillonnage	(5) Nombre d'unités dans les strates à tirage complet	(6) Taille de l'échantillon selon la stratification de 2003	(7) Taille de l'échantillon selon la solution de l'algorithme génétique	(8) Nombre de strates dans la solution de l'AG	(9) Différence relative en % (7) c. (6)
Piémont	105 671	1 646	105 074	597	2 687	1 497	9	-44,29
Vallée d'Aoste	6 125	65	6 074	51	408	317	7	-22,30
Lombardie	71 257	1 902	69 495	1 762	3 428	2 151	7	-37,25
Bolzano	23 362	127	23 202	160	692	430	7	-37,86
Trente	30 021	124	29 908	113	676	523	7	-22,63
Vénétie	176 999	1 450	176 064	935	3 531	1 868	11	-47,10
Frioul	32 981	638	32 805	176	807	498	6	-38,29
Ligurie	29 992	584	29 967	25	766	485	7	-36,68
Émilie-Romagne	103 702	2 157	102 922	780	2 584	2 022	11	-21,75
Toscane	107 288	1 959	106 964	324	2 099	1 337	16	-36,30
Ombrie	46 074	435	45 897	177	1 354	751	7	-44,53
Marches	60 439	1 005	60 271	168	918	488	8	-46,84
Latium	162 109	1 304	161 801	308	3 233	2 216	14	-31,46
Abruzzes	67 117	888	66 941	176	1 035	743	10	-28,21
Molise	28 890	375	28 834	56	1 190	630	6	-47,06
Campanie	212 145	1 271	211 833	312	2 559	1 883	13	-26,42
Pouilles	288 087	1 026	287 877	210	4 712	2 009	14	-57,36
Basilicate	68 470	504	68 355	115	703	493	7	-29,87
Calabre	145 812	1 624	145 654	158	2 798	1 792	17	-35,95
Sicile	295 637	2 345	295 472	165	3 955	3 140	22	-20,61
Sardaigne	91 532	1 238	91 329	203	2 330	982	7	-57,85
Italie	2 153 710	22 667	2 146 739	6 971	42 465	26 255	213	-38,17

Comme la détermination de la meilleure stratification a été effectuée séparément pour chaque région, 21 résultats indépendants attestent de la grande commodité de l'algorithme dans la plupart des domaines. On constate une diminution spectaculaire de la taille globale d'échantillon requise, comme en témoigne l'économie de 38,17 % par rapport au total antérieur. Ce résultat varie de région en région, la diminution maximale étant observée pour la Sardaigne (-57,85 %) et la diminution minimale, pour la Sicile (-20,61 %). En outre, en ce qui concerne les strates, en partant du nombre initial de strates atomiques (22 667), on observe une réduction énorme à l'étape de la stratification finale, qui est caractérisée par 213 strates distinctes seulement (nombre variant d'un minimum de 6 strates dans la région de Frioul à 22 strates en Sicile).

Pour ce qui est des paramètres utilisés pour obtenir le résultat susmentionné, les plus importants étaient les suivants :

nombre d'itérations (ou de générations);
taille de la génération (nombre d'individus, ou de solutions, évalué à chaque itération);
chances de mutation;
nombre initial de strates;
facteur d'accroissement du nombre initial de strates.

Leurs valeurs finales ont été déterminées, après de nombreux essais, sur la base de l'analyse des exécutions pour chaque région.

En particulier, en inspectant le graphique de convergence, il est possible de voir si le nombre d'itérations est suffisant pour avoir la certitude que la solution finale est définitivement la meilleure qu'il est possible d'obtenir, ou si un nombre plus élevé d'itérations est nécessaire. Pour cela, on peut analyser le comportement des deux courbes du graphique : la courbe inférieure donne la meilleure valeur d'évaluation, tandis que la courbe supérieure donne la valeur moyenne d'évaluation. Lorsque la valeur moyenne d'évaluation continue à diminuer, de même que la meilleure valeur d'évaluation, cela vaut la peine de poursuivre les itérations. Lorsque la courbe de la meilleure valeur devient stablement constante (et, habituellement, que la courbe de la valeur moyenne commence à fluctuer vers le haut et le bas), aucun gain supplémentaire ne peut être attendu de nouvelles itérations. C'est ce que montre, par exemple, le graphique de convergence pour la région de Trente, à la figure 5.1.

Pour le paramètre iterations, une valeur de 5 000 s'est révélée commode. Pour les chances de mutation, nous avons constaté que 0,001 était une valeur appropriée : cela signifie que, pour tout chromosome dans le génome (toute valeur dans le vecteur $v$ ), une mutation n'a lieu, en moyenne, qu'une fois sur mille. Un élément critique consiste à fixer le nombre initial de strates. Puisque la solution finale est très sensible au nombre de strates, nous avons décidé de laisser l'algorithme faire le choix. On peut, pour cela, comme nous l'avons déjà expliqué à la section 4, attribuer une faible valeur à initialStrata, et donner une valeur plus grande que 0 à addStrataFactor : cela permet à l'algorithme d'explorer les solutions correspondant à une grande gamme de nombre de strates. Dans notre expérience, nous avons fixé le nombre initial de strates à la valeur 5 et avons attribué une valeur de 0,01 au facteur d'accroissement du nombre initial de strates (cela signifie que, chaque fois qu'une mutation a lieu, il existe une probabilité de 1 % d'augmenter le nombre courant de strates).

Description de la figure 5.1

Figure 5.1 Meilleure valeur et valeur moyenne d'évaluation pour la région de Trente

Du point de vue des calculs, l'exécution de la tâche globale a pris 641 820 secondes (plus de 178 heures, près d'une semaine) (la tâche a été exécutée sur un ordinateur de bureau AMD Athlon $64 \times 2$ (2,90 Ghz, 3 GB RAM)).

Précédent | Suivant

Date de modification :: 2017-09-20

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

5 Une application : l'Enquête italienne sur la structure des exploitations agricoles (ESEA)