7. Conclusion
Piero Demetrio Falorsi et Paolo Righi
Précédent
L’article décrit une nouvelle approche
en vue de déterminer les probabilités d’inclusion optimales dans divers
contextes d’enquête caractérisés par la nécessité de diffuser des estimations
d’enquête d’une précision préétablie, pour de multiples variables et domaines
d’intérêt.
La principale contribution de l’article
a trait au calcul pratique de ces probabilités au moyen d’un nouvel algorithme,
qui convient pour un plan d’échantillonnage multidimensionnel général dans
lequel l’échantillonnage stratifié classique représente un cas particulier.
L’approche proposée, l’algorithme et le calcul final sont orientés domaine et
variable.
Dans notre cadre, les variables
indicatrices d’appartenance à un domaine sont supposées connues, tandis que les
variables d’intérêt sont inconnues. La procédure est alors appliquée aux
valeurs prédites des caractéristiques d’intérêt au moyen d’un modèle de
superpopulation, et l’algorithme permet de tenir compte de l’incertitude du
modèle; cela reflète le fait que les valeurs des variables d’intérêt sont
inconnues. En utilisant la variance anticipée comme mesure de la précision de
l’estimateur, cette approche permet de contourner les limites des algorithmes
standard utilisés pour la répartition des échantillons, dans lesquels les
variables d’intérêt dictant la solution sont supposées connues.
L’algorithme proposé exploite une
procédure standard, mais présente certaines innovations en matière de calcul
qui pourraient être utiles pour faire face à la complexité qui découle du fait
que les variances anticipées sont des fonctions implicites des probabilités
d’inclusion. L’algorithme a été testé sur des données simulées et des données
d’enquête réelles afin d’évaluer sa performance et ses propriétés. Les
résultats d’un petit ensemble d’expériences sont présentés ici. Ils confirment
une amélioration, en ce qui concerne l’efficacité, de la stratégie
d’échantillonnage. Une généralisation naturelle du cas examiné ici peut être
élaborée en considérant que les indicateurs de domaine et d’autres variables
indépendantes quantitatives sont connus à l’étape de l’élaboration du plan
d’échantillonnage. Nous notons que la variance anticipée en ne tenant compte
que des indicateurs de domaine est plus grande que la variance anticipée de ce
cas plus général. Donc, notre solution représente une borne supérieure (et
d’une certaine robustesse) de la solution à la phase de l’élaboration du plan.
En outre, la solution algorithmique peut être adaptée facilement à cette
situation plus générale.
Remerciements
La présente étude a été financée par le
partenariat de la Stratégie mondiale pour l’amélioration des statistiques
agricoles et rurales : http://www.fao.org/economic/ess/ess-capacity/strategie-mondiale/fr/.
Annexe
Annexe A1
VA de l’estimateur HT
Considérons le résidu
tel qu’il est exprimé par l’équation (3.5), et
remplaçons le terme
par
ce qui nous donne
Les moindres prédictions pondérées de
et
avec les prédicteurs
et les pondérations
sont
et
avec
En utilisant les formules (A1.2) et
(A1.3), l’expression (A1.1) peut être reformulée sous la forme
Par conséquent, l’espérance sous le modèle de
est
car
En
outre,
où
et
avec
et
L’expression
(4.5) est obtenue facilement en insérant les expressions provenant de (A1.2) à
(A1.8) dans l’équation (4.3).
Annexe A2
Convergence de
l’algorithme
Le problème d’optimisation (5.1) est
résolu par deux itérations du point fixe emboîtées. Étant donné un vecteur
de dimension
inconnu, l’itération du point fixe choisit une
valeur supposée initiale
Puis, l’algorithme calcule des itérés
subséquents selon
avec
où
est un système de
équations de mise à jour. La fonction
multivariée
possède un point fixe dans un domaine
si
applique
dans
Soit
la matrice jacobéenne de la dérivée partielle
première de
évaluée à
S’il existe une constante
telle que, dans une norme matricielle
naturelle,
possède un point fixe unique
et l’itération du point fixe est garantie de
converger vers
pour toute valeur supposée initiale choisie
dans
En ce qui concerne l’algorithme proposé, la
convergence de la boucle interne (BI) et de la boucle externe (BE) est obtenue
quand les termes
convergent vers le point fixe. Cela signifie
que les vecteurs
et
ne changent pas dans les itérations de la BE
et de la BI. Dans la démonstration qui suit, nous considérons la méthode
proposée par Chromy (1987) pour résoudre le PLCS du système (5.7), et nous
formulons certaines hypothèses raisonnables, à savoir : 1)
2)
3)
4)
avec
5)
L’hypothèse (1)
correspond à l’approximation à la hausse de la variance anticipée, donnée à la
remarque 4.1, et implique que
L’hypothèse (3) implique que
L’hypothèse (4) énonce que la structure
des probabilités d’inclusion demeure à peu près constante dans les différentes
itérations de la BI. L’hypothèse devient raisonnable compte tenu du fait que
l’équation de mise à jour A2.2 qui suit (d’une probabilité d’inclusion donnée)
est essentiellement déterminée par le seuil de variance qui requiert la taille
d’échantillon la plus grande. Il est plausible d’émettre l’hypothèse que ce
seuil demeure plus ou moins le même dans les itérations de la BI subséquentes
d’une BE donnée.
Preuve de la convergence de la
boucle interne. En
reformulant l’expression (4.6) conformément aux hypothèses (1) à (4),
En considérant que, dans le problème
(5.7), les valeurs de
sont fixes, chaque valeur du vecteur
s’obtient comme une solution du PLCS avec
l’algorithme de Chromy. Désignons par
l’itération de l’algorithme de Chromy durant
laquelle il converge, où
Alors, la BI met à jour la probabilité
générique conformément à l’expression
où
le deuxième terme du membre de droite représente la formule de mise à jour de
l’algorithme de Chromy, et
représente
et
est le
multiplicateur de Lagrange généralisé, où
et
La
théorie de Kuhn-Tucker énonce que
par
conséquent,
et
si et
seulement si
Chromy
affirme que peu de
sont
plus grands que zéro, et que dans la plupart des cas, une seule valeur est
strictement positive. En notant
nous
définissons
comme
étant le système de
équations de mise à jour, où l’équation
générique du système
s’obtient
en insérant l’expression (A2.2) dans (A2.1). Si l’on obtient la convergence,
alors dans la dernière itération,
La
fonction de l’équation (A2.4) est continue et dérivable. En outre, elle
s’applique sur l’intervalle des valeurs possibles de
Alors,
la BI converge si la condition qui suit est satisfaite :
La matrice jacobienne est
semi-définie positive, et un résultat bien connu énonce que
En considérant la norme de Frobenius
elle devient
Donc, nous pouvons tenir compte de la trace de
la matrice jacobienne pour vérifier la condition (A2.5). Soit
l’élément
de la diagonale de
En utilisant la condition de Kuhn-Tucker
Puisque dans de nombreux cas,
(Chromy 1987), l’élément
respectif est nul. Quand
alors
Par
conséquent, la
doit
être inférieure à 1.
Preuve de la convergence de la
boucle externe. Soit
la
solution du problème de point fixe de la BI; alors, la BE met à jour le vecteur
avec
Sous les
conditions (1), (2) et (3),
En insérant l’expression (A2.2) dans la
formule (A2.6) quand la BI converge, le système de
équations de mise à jour de
est donné par
où l’équation générique de
est
En notant que
le système j peut être exprimé sous une forme récursive
avec
en tant que
système de
équations de mise à jour de
par
rapport aux valeurs antérieures de la BE,
Pour
démontrer la convergence de la BE, il est nécessaire de démontrer que la norme
jacobienne
est
inférieure à 1. En utilisant les résultats classiques de l’algèbre matricielle,
où
la norme générique
est
inférieure à 1 (voir la preuve de convergence de la BI). Soit
l’élément
de la
diagonale de
Il est
donné par
Par conséquent, nous avons
L’inégalité qui suit est vérifiée
Donc,
la norme
et par
conséquent la BE converge.
Annexe A3
Preuve que l’approximation de la remarque 4.1
est à la hausse
Puisque
est la prédiction par les moindres carrés
pondérés de
en utilisant une valeur différente de
telle que
nous obtenons
où
En
remplaçant les termes
par
dans
l’expression (A1.5), la VAA (4.3) est surestimée. L’approximation
implique
que
Enfin,
nous soulignons que, dans la plupart des cas, la hausse est légère, puisque les
sont
obtenus au moyen des variables
qui ont
généralement un pouvoir prédictif très faible pour les valeurs de
(voir la
section 4). Dans ces situations,
Donc
et
Annexe A4
Preuve de l’expression (4.7)
Dans ce cas, chaque vecteur
contient
éléments nuls et 1 élément égal à 1
(correspondant à la population planifiée à laquelle l’unité
appartient). Étant donné les valeurs d’entrée,
la procédure d’optimisation
pour
Sous l’hypothèse susmentionnée,
est une matrice diagonale dont le
élément est donné par
En considérant que
les expressions (A1.2) et (A1.3) peuvent être
reformulées, respectivement, sous la forme
mais
en tant
que somme des résidus d’un modèle de régression.
En utilisant les formules (A4.1) et
(A4.2), l’expression (4.5) est donnée par
puisque
que
et
l’expression (4.7) peut être obtenue.
Bibliographie
Bethel, J.
(1989). Répartition de l’échantillon dans les enquêtes à plusieurs variables. Techniques d’enquête, 15, 1, 49-60.
Boyd, S., et
Vanderberg, L. (2004). Convex Optimization. Cambridge
University Press.
Breidt, F.J.,
et Chauvet, G. (2011). Improved variance estimation for balanced samples
drawn via the cube method. Journal of
Statistical Planning and Inference, 141, 479-487.
Chauvet, G., Bonnéry, D. et Deville, J.-C. (2011). Optimal
inclusion probabilities for balanced sampling. Journal of Statistical Planning and Inference, 141, 984-994.
Choudhry, G.H., Rao, J.N.K. et Hidiroglou, M.A. (2012). À propos de la répartition de
l’échantillon pour une estimation sur domaine efficace. Techniques d’enquête, 18, 1, 25-32.
Chromy, J. (1987). Design optimization with multiple
objectives. Proceedings of the Survey
Research Methods Section, American Statistical Association, 194-199.
Cochran, W.G. (1977). Sampling Techniques. New York : John Wiley & Sons, Inc.
Deville,
J.-C., et Tillé, Y. (2004). Efficient balanced sampling: The cube
method. Biometrika, 91, 893-912.
Deville, J.-C., et Tillé, Y. (2005). Variance
approximation under balanced sampling, Journal
of Statistical Planning and Inference, 128, 569-591.
Dykstra R. et Wollan P. (1987). Finding I-projections subject to a finite set of linear inequality constraints, Applied Statistics, 36, 377-383.
Ernst, L.R. (1989). Further applications of linear
programming to sampling problems. Proceedings
of the Survey Research Methods Section, American Statistical Association,
625-631.
Falorsi,
P.D., et Righi, P. (2008). Une approche d’échantillonnage équilibré pour des
plans de sondage à stratification multidimensionnelle pour l’estimation pour
petits domaines. Techniques d’enquête,
34, 2, 247-259.
Falorsi,
P.D., Orsini, D. et Righi, P. (2006). Balanced and coordinated sampling
designs for small domain estimation. Statistics
in Transition, 7, 1173-1198.
Gonzalez, J.M., et Eltinge, J.L. (2010). Optimal survey design: A review. Section on Survey Research Methods – JSM 2010, Octobre.
Isaki, C.T., et Fuller, W.A. (1982). Survey design under
a regression superpopulation model. Journal
of the American Statistical Association, 77, 89-96.
Khan, M.G.M., Mati, T. et Ahsan, M.J. (2010). An optimal
multivariate stratified sampling design using auxiliary information: An integer
solution using goal programming approach. Journal
of Official Statistics, 26, 695-708.
Kokan, A., et Khan, S. (1967). Optimum allocation in
multivariate surveys: An analytical solution. Journal of the Royal Statistical Society, Series B, 29, 115-125.
Lu, W., et Sitter, R.R. (2002). Méthode pratique de stratification multiple par
programmation linéaire. Techniques
d’enquête, 28, 2, 215-224.
Nedyalkova,
D., et Tillé, Y. (2008). Optimal
sampling and estimation strategies under the linear model. Biometrika, 95, 521-537.
Tillé, Y. (2006). Sampling Algorithms. Springer-Verlag, New York.
Tillé, Y., et
Favre, A.-C. (2005). Optimal allocation in balanced sampling. Statistics and Probability Letters, 74,
31-37.
Winkler, W.E. (2001). Multi-way survey stratification
and sampling. Research Report Series,
Statistics #2001-01. Statistical Research Division U.S. Bureau of the Census
Washington D.C. 20233.
Précédent