2. Estimation composite par régression optimale pour le plan (c)
Takis Merkouris
Précédent | Suivant
Une méthode d'estimation générale pour
l'échantillonnage matriciel est illustrée pour le plan (c) dans les
conditions les plus simples comportant trois échantillons
et
avec plans arbitraires et tailles
qui peuvent être des
sous-échantillons d'un échantillon initial de taille
pour une population étiquetée
ou qui peuvent être tirés
indépendamment de
Un vecteur de dimension
de variables
et un vecteur de dimension
de variables
sont étudiés dans
et
respectivement, et les deux
vecteurs sont étudiés dans
Ces deux modes d'échantillonnage
matriciel, illustrés à la figure 2.1, seront appelés ci-après
échantillonnage matriciel emboîté et non emboîté, respectivement, par analogie avec
l'échantillonnage à deux phases emboîté et non emboîté (Hidiroglou 2001).
Figure 2.1 Plan (c) d'échantillonnage matriciel emboîté et
non emboîté

Description de la figure 2.1
Nous désignons par
le vecteur de poids de
sondage pour l'échantillon
et par
et
les matrices d'échantillon de
et
l'indice inférieur indiquant
l'échantillon. Nous obtenons les simples estimateurs de Horvitz-Thompson (HT)
et
du total de population
de
en utilisant
et
respectivement, et les
simples estimateurs HT
et
du total
de
en utilisant
et
Pour obtenir une estimation plus
efficace des totaux
et
nous recherchons des
estimateurs composites qui combinent toute l'information sur
et
disponible dans les trois
échantillons. Ces estimateurs composites, qui sont les meilleurs estimateurs
linéaires sans biais (BLUE), c'est-à-dire les
combinaisons linéaires sans biais à variance minimale des quatre estimateurs
et
sont notés
et
et donnés sous forme
matricielle par
où
la matrice
satisfait
et contient des entrées
et
et
est la matrice de variance-covariance
de
Cette méthode d'estimation a été
proposée par Chipperfield et Steel
(2009), qui ont fourni des expressions analytiques de l'estimateur BLUE pour
les scalaires
et
sous échantillonnage matriciel
non emboîté, en supposant que l'échantillonnage est aléatoire simple et que
est connue. Ce type d'approche
de l'estimation composite a également été étudié dans un différent contexte d'enquête;
voir Wolter (1979), Jones (1980) et Fuller
(1990). En général, le calcul de l'estimateur BLUE donné par (2.1) n'est
vraiment pas pratique, car le calcul d'une matrice estimée
(et de son inverse) dans
est assez laborieux, surtout si
le nombre de variables ou les tailles des échantillons sont grands; ce calcul
serait prohibitif si les estimations pour des sous-populations étaient
également requises. Naturellement, le problème devient plus difficile quand un
plus grand nombre d'échantillons sont utilisés.
Voici une formulation plus pratique de
cette procédure d'estimation. Premièrement, nous exprimons les estimateurs
composites donnés par (2.1) explicitement comme des combinaisons linéaires des estimateurs HT
et
c'est-à-dire
La condition d'absence de biais,
et
implique que
et
Donc,
et
peuvent être exprimées sous
la forme
respectivement, et les deux estimateurs composites possèdent nécessairement la forme
de régression
Alors, en écrivant que
en notation évidente pour la
matrice
nous pouvons exprimer (2.1) comme
le deuxième membre de (2.3) étant la forme matricielle de (2.2). Le
problème consistant à trouver la valeur optimale (minimisant la variance) de
de l'estimateur BLUE en (2.1) se
réduit alors au problème consistant à trouver la matrice optimale
en (2.3). La matrice optimale
estimée
est donnée par
et, quand les trois échantillons sont indépendants, elle se réduit à
Compte tenu de (2.3), avec un tel
optimal, le BLUE estimé en (2.1)
faisant intervenir la matrice estimée
et avec
est un type particulier
d'estimateur par régression multivariée optimale. Pour la forme de l'estimateur
par régression optimale ordinaire (un seul échantillon) et une discussion
pertinente, voir Montanari (1987) et Rao
(1994).
En exprimant la variance estimée de
l'estimateur HT d'un total (voir, par exemple, Särndal, Swensson et Wretman 1992, page 43) sous une forme
quadratique avec matrice définie non négative associée
où
sont les probabilités
d'inclusion d'ordre un et d'ordre deux, on peut montrer, après certaines
opérations algébriques sur les matrices, que
où
est la matrice de plan de dimensions
correspondant à l'estimateur par régression
(2.3),
est la matrice
dans laquelle les éléments des
deux premières lignes sont fixés à zéro, et
est associée à l'échantillon
combiné
qui se réduit dans
l'échantillonnage non emboîté à la matrice diagonale par blocs
avec
associée à l'échantillon
Pour le plan d'échantillonnage
emboîté, les probabilités définissant
sont les produits des
probabilités d'inclusion dans
et des probabilités de
sous-échantillonnage conditionnelles (sur
Avec cette matrice optimale
estimée
le BLUE estimé en (2.3), appelé estimateur
par régression optimale composite (ROC) et désigné par
s'écrit de manière compacte sous
la forme
où
est le vecteur des poids de
sondage de l'échantillon combiné
Il s'avère que l'estimateur ROC est, en fait,
égal à la somme des résidus de la régression pour l'échantillon pondérée, et
que
minimise la forme quadratique
en ces résidus, ce qui est la
variance approximative (en grand échantillon) estimée de
Or, en écrivant
sous la forme
il apparaît que l'estimateur ROC
possède la forme d'un estimateur par calage (avec le vecteur de totaux de
calage
de dimension
dont les composantes satisfont
les contraintes
et
c'est-à-dire que les
estimations calées du même total provenant de deux échantillons différents sont
égales. En effet, le vecteur
est le vecteur des poids calés qui minimise la distance au sens des
moindres carrés généralisés
tout en satisfaisant les contraintes
et
où le sous-vecteur
correspond à l'échantillon
Cela découle d'un résultat général
pour le cas avec un seul échantillon, selon lequel le calage au moyen de la mesure
de distance par les moindres carrés généralisés peut faire intervenir une
matrice définie positive de dimensions
arbitraire
au lieu de
voir Andersson et Thorburn (2005).
Nous pouvons maintenant écrire
l'estimateur ROC formellement sous la forme d'un estimateur par calage, et, en utilisant le
sous-vecteur de poids calés
pour l'échantillon
seulement, nous obtenons les
composantes de
directement sous les formes linéaires simples
comme dans la pratique courante des enquêtes. Toutefois, une décomposition du
vecteur
basée sur le lemme général ci-après concernant
le calage donne une expression analytique de
et
de la forme (2.2), qui renseigne
sur la structure et l'efficacité de l'estimateur ROC. La preuve du lemme est
donnée en annexe.
Lemme 1 Soit
et de plein rang écrite sous forme
partitionnée
avec le vecteur correspondant de totaux de
calage
et soit
toute matrice définie positive de dimensions
Alors, le vecteur de poids calés
obtenu par la procédure de
calage utilisant la mesure de distance
et la contrainte
peut être décomposé comme il suit
où
avec
et
avec
Le vecteur
peut s'écrire
où le vecteur
est généré par le calage
des poids de sondage ne faisant intervenir que
et
Par symétrie,
où
Or, si
est tel qu'en (2.7), avec le
vecteur correspondant de totaux de calage
et si
alors il découle de (2.9) que
(2.8) peut s'écrire sous la forme
et donc
en notation évidente pour
et
Une expression similaire
s'obtient pour
On voit en examinant (2.12) que l'estimateur ROC
de
est approximativement (pour les
grands échantillons) sans biais, et tire son efficacité de la combinaison des
deux estimateurs élémentaires
et
(mise en commun de l'information provenant des
échantillons
et
et de l'emprunt d'information
provenant de l'échantillon
grâce à la corrélation entre
et
Compte tenu de (2.10), l'estimateur
prend la forme de rechange
où
représente les estimateurs par
régression optimale (RO) incorporant l'effet de régression du dernier terme en
(2.12).
Dans le cas de l'échantillonnage
matriciel non emboîté,
dont la variance approximative estimée est
et
est le coefficient qui minimise
la variance
La forme explicite
indique clairement que le
terme
est d'autant plus grand que
la corrélation entre
et
est forte, , et que plus de
poids est donné à la composante moins variable
Dans cette connexion, on peut
montrer facilement que
satisfait
Ces inégalités sont également
vérifiées pour toute combinaison linéaire des composantes de chacun des
estimateurs concernés. L'efficacité de l'estimateur par régression optimale
composite
dépasse d'une valeur
correspondant aux quantités montrées l'efficacité de chacune de ses deux
composantes
et
l'efficacité dépendant de la
force de la corrélation entre
et
L'estimateur
est également plus efficace que
l'estimateur
avec
qui n'incorpore pas l'information
sur
(n'emprunte pas d'information à l'échantillon
et dont la variance estimée est
En effet, en écrivant la variance
sous la forme
où
avec
et
et en notant que
il s'ensuit que
c'est-à-dire que l'emprunt d'information à
réduit la variance de l'estimateur
composite de
d'un facteur
qui dépend de la force de la
corrélation entre
et
Il est facile de vérifier que,
pour deux variables scalaires
et
sous échantillonnage aléatoire
simple, ce résultat se réduit au résultat analytique analogue sur l'efficacité de
l'estimateur BLUE donné dans Chipperfield et
Steel (2009, page 231). Dans ce cas simple,
où
est la corrélation entre
et
En guise d'exemple, en supposant
que les tailles d'échantillon sont égales et que la corrélation
le gain d'efficacité est de 13,96 %.
Dans le cas de l'échantillonnage
matriciel emboîté, les deux estimateurs en (2.13) sont
et
où AC désigne la covariance approximative. Dans ce cas, en plus de la
corrélation
entre
et
dans l'échantillon
l'efficacité de
dépend des corrélations
des estimateurs dues à la dépendance
des sous-échantillons. Si
et
sont univariées et en
émettant l'hypothèse simplificatrice que les plans de sondage sont identiques
pour les trois sous-échantillons (comme dans le fractionnement égal de
l'échantillon complet), nous obtenons certains indices au moyen des expressions
simples
et
Manifestement, l'estimateur
qui ne tient pas compte de l'information
sur
n'est plus efficace que la
moyenne simple des estimateurs sur un seul échantillon de
que si la corrélation
est négative. L'efficacité de
par rapport à
dépend du signe et de la grandeur de
et de la grandeur de
Bien que la procédure de calage, avec le
vecteur de poids calés (2.8), facilite considérablement le calcul de
l'estimateur par régression optimale composite pour tout total d'intérêt, la
matrice
rend les calculs extrêmement
exigeants, particulièrement dans le cas de l'échantillonnage emboîté où les sous-échantillons dépendent les uns des
autres et
n'est donc pas diag
En outre, les probabilités
ne sont pas connues pour la
plupart des plans d'échantillonnage. Un estimateur par régression composite de
rechange dont les calculs sont très rapides est élaboré à la section suivante.
Précédent | Suivant