Recherche par

2. Estimation composite par régression optimale pour le plan (c)

Takis Merkouris

Une méthode d'estimation générale pour l'échantillonnage matriciel est illustrée pour le plan (c) dans les conditions les plus simples comportant trois échantillons $S_{1}, S_{2}$ et $S_{3}$ avec plans arbitraires et tailles $n_{1}, n_{2}, n_{3},$ qui peuvent être des sous-échantillons d'un échantillon initial de taille $n = n_{1} + n_{2} + n_{3}$ pour une population étiquetée $U = 1, \dots, k, \dots, N,$ ou qui peuvent être tirés indépendamment de $U .$ Un vecteur de dimension $p$ de variables $x$ et un vecteur de dimension $q$ de variables $y$ sont étudiés dans $S_{1}$ et $S_{2},$ respectivement, et les deux vecteurs sont étudiés dans $S_{3} .$ Ces deux modes d'échantillonnage matriciel, illustrés à la figure 2.1, seront appelés ci-après échantillonnage matriciel emboîté et non emboîté, respectivement, par analogie avec l'échantillonnage à deux phases emboîté et non emboîté (Hidiroglou 2001).

Figure 2.1 Plan (c) d'échantillonnage matriciel emboîté et non emboîté

Figure 2.1 Populations et échantillons standard et pseudo-populations et échantillons

Description de la figure 2.1

Nous désignons par $w_{i}$ le vecteur de poids de sondage pour l'échantillon $S_{i}, i = 1, 2, 3,$ et par $X_{i}$ et $Y_{i},$ les matrices d'échantillon de $x$ et $y,$ l'indice inférieur indiquant l'échantillon. Nous obtenons les simples estimateurs de Horvitz-Thompson (HT) ${\hat{X}}_{1} (= {X^{'}}_{1} w_{1})$ et ${\hat{X}}_{3}$ du total de population $t_{x}$ de $x,$ en utilisant $S_{1}$ et $S_{3},$ respectivement, et les simples estimateurs HT ${\hat{Y}}_{2}$ et ${\hat{Y}}_{3}$ du total $t_{y}$ de $y,$ en utilisant $S_{2}$ et $S_{3} .$ Pour obtenir une estimation plus efficace des totaux $t_{x}$ et $t_{y},$ nous recherchons des estimateurs composites qui combinent toute l'information sur $x$ et $y$ disponible dans les trois échantillons. Ces estimateurs composites, qui sont les meilleurs estimateurs linéaires sans biais (BLUE), c'est-à-dire les combinaisons linéaires sans biais à variance minimale des quatre estimateurs ${\hat{X}}_{1}, {\hat{Y}}_{2}, {\hat{X}}_{3}$ et ${\hat{Y}}_{3},$ sont notés ${\hat{X}}^{B}$ et ${\hat{Y}}^{B},$ et donnés sous forme matricielle par

$(\begin{matrix} {\hat{X}}^{B} \\ {\hat{Y}}^{B} \end{matrix}) = P (\begin{matrix} {\hat{X}}_{1} \\ {\hat{Y}}_{2} \\ {\hat{X}}_{3} \\ {\hat{Y}}_{3} \end{matrix}), (2.1)$

où $P = {(W^{'} V^{- 1} W)}^{- 1} W^{'} V^{- 1},$ la matrice $W$ satisfait $E [{({\hat{X}}^{'}_{1}, {\hat{Y}}^{'}_{2}, {\hat{X}}^{'}_{3}, {\hat{Y}}^{'}_{3})}^{'}] = W {({t^{'}}_{x}, {t^{'}}_{y})}^{'}$ et contient des entrées $1$ et $0,$ et $V$ est la matrice de variance-covariance de ${({\hat{X}}^{'}_{1}, {\hat{Y}}^{'}_{2}, {\hat{X}}^{'}_{3}, {\hat{Y}}^{'}_{3})}^{'} .$ Cette méthode d'estimation a été proposée par Chipperfield et Steel (2009), qui ont fourni des expressions analytiques de l'estimateur BLUE pour les scalaires $x$ et $y$ sous échantillonnage matriciel non emboîté, en supposant que l'échantillonnage est aléatoire simple et que $V$ est connue. Ce type d'approche de l'estimation composite a également été étudié dans un différent contexte d'enquête; voir Wolter (1979), Jones (1980) et Fuller (1990). En général, le calcul de l'estimateur BLUE donné par (2.1) n'est vraiment pas pratique, car le calcul d'une matrice estimée $V$ (et de son inverse) dans $P$ est assez laborieux, surtout si le nombre de variables ou les tailles des échantillons sont grands; ce calcul serait prohibitif si les estimations pour des sous-populations étaient également requises. Naturellement, le problème devient plus difficile quand un plus grand nombre d'échantillons sont utilisés.

Voici une formulation plus pratique de cette procédure d'estimation. Premièrement, nous exprimons les estimateurs composites donnés par (2.1) explicitement comme des combinaisons linéaires des estimateurs HT ${\hat{X}}_{1}, {\hat{Y}}_{2}, {\hat{X}}_{3}$ et ${\hat{Y}}_{3},$ c'est-à-dire

$\begin{array}{l} {\hat{X}}^{B} & = & B_{1 x} {\hat{X}}_{1} + B_{2 x} {\hat{Y}}_{2} + B_{3 x} {\hat{X}}_{3} + B_{4 x} {\hat{Y}}_{3} \\ {\hat{Y}}^{B} & = & B_{1 y} {\hat{X}}_{1} + B_{2 y} {\hat{Y}}_{2} + B_{3 y} {\hat{X}}_{3} + B_{4 y} {\hat{Y}}_{3} . \end{array}$

La condition d'absence de biais, $E ({\hat{X}}^{B}) = t_{x}$ et $E ({\hat{Y}}^{B}) = t_{y},$ implique que $B_{3 x} = I - B_{1 x},$ $B_{4 x} = - B_{2 x}$ et $B_{4 y} = I - B_{2 y},$ $B_{3 y} = - B_{1 y} .$ Donc, $P$ et $W$ peuvent être exprimées sous la forme

$P = (\begin{matrix} B_{1 x} & B_{2 x} & I - B_{1 x} & - B_{2 x} \\ B_{1 y} & B_{2 y} & - B_{1 y} & I - B_{2 y} \end{matrix}), W^{'} = (\begin{matrix} I & 0 & I & 0 \\ 0 & I & 0 & I \end{matrix}),$

respectivement, et les deux estimateurs composites possèdent nécessairement la forme de régression

$\begin{array}{l} {\hat{X}}^{B} & = & {\hat{X}}_{3} + B_{1 x} ({\hat{X}}_{1} - {\hat{X}}_{3}) + B_{2 x} ({\hat{Y}}_{2} - {\hat{Y}}_{3}) \\ {\hat{Y}}^{B} & = & {\hat{Y}}_{3} + B_{1 y} ({\hat{X}}_{1} - {\hat{X}}_{3}) + B_{2 y} ({\hat{Y}}_{2} - {\hat{Y}}_{3}) . \end{array} (2.2)$

Alors, en écrivant que $P = (ℬ, I - ℬ),$ en notation évidente pour la matrice $ℬ,$ nous pouvons exprimer (2.1) comme

$(\begin{matrix} {\hat{X}}^{B} \\ {\hat{Y}}^{B} \end{matrix}) = ℬ (\begin{matrix} {\hat{X}}_{1} \\ {\hat{Y}}_{2} \end{matrix}) + (I - ℬ) (\begin{matrix} {\hat{X}}_{3} \\ {\hat{Y}}_{3} \end{matrix}) = (\begin{matrix} {\hat{X}}_{3} \\ {\hat{Y}}_{3} \end{matrix}) + ℬ (\begin{matrix} {\hat{X}}_{1} - {\hat{X}}_{3} \\ {\hat{Y}}_{2} - {\hat{Y}}_{3} \end{matrix}), (2.3)$

le deuxième membre de (2.3) étant la forme matricielle de (2.2). Le problème consistant à trouver la valeur optimale (minimisant la variance) de $P$ de l'estimateur BLUE en (2.1) se réduit alors au problème consistant à trouver la matrice optimale $ℬ$ en (2.3). La matrice optimale estimée ${\hat{ℬ}}^{o}$ est donnée par

${\hat{ℬ}}^{o} = - \hat{Cov} (\begin{matrix} (\begin{matrix} {\hat{X}}_{3} \\ {\hat{Y}}_{3} \end{matrix}), (\begin{matrix} {\hat{X}}_{1} - {\hat{X}}_{3} \\ {\hat{Y}}_{2} - {\hat{Y}}_{3} \end{matrix}) \end{matrix}) {[\hat{V} (\begin{matrix} {\hat{X}}_{1} - {\hat{X}}_{3} \\ {\hat{Y}}_{2} - {\hat{Y}}_{3} \end{matrix})]}^{- 1}, (2.4)$

et, quand les trois échantillons sont indépendants, elle se réduit à

${\hat{ℬ}}^{o} = \hat{V} (\begin{matrix} {\hat{X}}_{3} \\ {\hat{Y}}_{3} \end{matrix}) {[\hat{V} (\begin{matrix} {\hat{X}}_{1} \\ {\hat{Y}}_{2} \end{matrix}) + \hat{V} (\begin{matrix} {\hat{X}}_{3} \\ {\hat{Y}}_{3} \end{matrix})]}^{- 1} . (2.5)$

Compte tenu de (2.3), avec un tel ${\hat{ℬ}}^{o}$ optimal, le BLUE estimé en (2.1) faisant intervenir la matrice estimée $\hat{V},$ et avec $\hat{P} = ({\hat{ℬ}}^{o}, I - {\hat{ℬ}}^{o}),$ est un type particulier d'estimateur par régression multivariée optimale. Pour la forme de l'estimateur par régression optimale ordinaire (un seul échantillon) et une discussion pertinente, voir Montanari (1987) et Rao (1994).

En exprimant la variance estimée de l'estimateur HT d'un total (voir, par exemple, Särndal, Swensson et Wretman 1992, page 43) sous une forme quadratique avec matrice définie non négative associée $Λ^{0} = {(π_{k l} - π_{k} π_{l}) / π_{k} π_{l} π_{k l}},$ où $π_{k}, π_{k l}$ sont les probabilités d'inclusion d'ordre un et d'ordre deux, on peut montrer, après certaines opérations algébriques sur les matrices, que

${\hat{ℬ}}^{o} = ({X^{'}}_{3} Λ^{0} X) {(X^{'} Λ^{0} X)}^{- 1}, (2.6)$

où

$X = (\begin{matrix} - X_{1} & 0 \\ 0 & - Y_{2} \\ X_{3} & Y_{3} \end{matrix}) (2.7)$

est la matrice de plan de dimensions $n \times (p + q)$ correspondant à l'estimateur par régression (2.3), $X_{3}$ est la matrice $X$ dans laquelle les éléments des deux premières lignes sont fixés à zéro, et $Λ^{0}$ est associée à l'échantillon combiné $S = S_{1} \cup S_{2} \cup S_{3},$ qui se réduit dans l'échantillonnage non emboîté à la matrice diagonale par blocs $diag {Λ_{i}^{0}}$ avec $Λ_{i}^{0}$ associée à l'échantillon $S_{i} .$ Pour le plan d'échantillonnage emboîté, les probabilités définissant $Λ^{0}$ sont les produits des probabilités d'inclusion dans $S$ et des probabilités de sous-échantillonnage conditionnelles (sur $S) .$ Avec cette matrice optimale estimée ${\hat{ℬ}}^{o},$ le BLUE estimé en (2.3), appelé estimateur par régression optimale composite (ROC) et désigné par ${\hat{X}}^{ROC},$ s'écrit de manière compacte sous la forme ${\hat{X}}^{ROC} = {\hat{X}}_{3} - {\hat{ℬ}}^{o} \hat{X} [= {(X_{3} - X {\hat{ℬ}}^{o^{'}})}^{'} w],$ où $w =$ ${({w^{'}}_{1}, {w^{'}}_{2}, {w^{'}}_{3})}^{'}$ est le vecteur des poids de sondage de l'échantillon combiné $S .$ Il s'avère que l'estimateur ROC est, en fait, égal à la somme des résidus de la régression pour l'échantillon pondérée, et que ${\hat{ℬ}}^{o}$ minimise la forme quadratique ${(X_{3} - X {\hat{ℬ}}^{o^{'}})}^{'} Λ^{0} (X_{3} - X {\hat{ℬ}}^{o^{'}})$ en ces résidus, ce qui est la variance approximative (en grand échantillon) estimée de ${\hat{X}}^{ROC} .$

Or, en écrivant ${\hat{X}}^{ROC}$ sous la forme ${\hat{X}}^{ROC} = {X^{'}}_{3} [w + Λ^{0} X {(X^{'} Λ^{0} X)}^{- 1} (0 - X^{'} w)],$ il apparaît que l'estimateur ROC possède la forme d'un estimateur par calage (avec le vecteur de totaux de calage $0 = {(0^{'}, 0^{'})}^{'}$ de dimension $(p + q)),$ dont les composantes satisfont les contraintes ${\hat{X}}_{1}^{ROC} = {\hat{X}}_{3}^{ROC}$ et ${\hat{Y}}_{2}^{ROC} = {\hat{Y}}_{3}^{ROC},$ c'est-à-dire que les estimations calées du même total provenant de deux échantillons différents sont égales. En effet, le vecteur

$c = w + Λ^{0} X {(X^{'} Λ^{0} X)}^{- 1} (0 - X^{'} w), (2.8)$

est le vecteur des poids calés qui minimise la distance au sens des moindres carrés généralisés ${(c - w)}^{'} {(Λ^{0})}^{- 1} (c - w)$ tout en satisfaisant les contraintes ${X^{'}}_{1} c_{1} = {X^{'}}_{3} c_{3}$ et ${Y^{'}}_{2} c_{2} = {Y^{'}}_{3} c_{3},$ où le sous-vecteur $c_{i}$ correspond à l'échantillon $S_{i} .$ Cela découle d'un résultat général pour le cas avec un seul échantillon, selon lequel le calage au moyen de la mesure de distance par les moindres carrés généralisés peut faire intervenir une matrice définie positive de dimensions $n \times n$ arbitraire $R$ au lieu de $Λ^{0};$ voir Andersson et Thorburn (2005).

Nous pouvons maintenant écrire l'estimateur ROC formellement sous la forme d'un estimateur par calage, ${\hat{X}}^{ROC} = {X^{'}}_{3} c,$ et, en utilisant le sous-vecteur de poids calés $c_{3},$ pour l'échantillon $S_{3}$ seulement, nous obtenons les composantes de ${\hat{X}}^{ROC}$ directement sous les formes linéaires simples

${\hat{X}}^{ROC} = {X^{'}}_{3} c_{3} = \sum_{S_{3}} c_{k} x_{k}; {\hat{Y}}^{ROC} = {Y^{'}}_{3} c_{3} = \sum_{S_{3}} c_{k} y_{k},$

comme dans la pratique courante des enquêtes. Toutefois, une décomposition du vecteur $c$ basée sur le lemme général ci-après concernant le calage donne une expression analytique de ${\hat{X}}^{ROC}$ et ${\hat{Y}}^{ROC}$ de la forme (2.2), qui renseigne sur la structure et l'efficacité de l'estimateur ROC. La preuve du lemme est donnée en annexe.

Lemme 1 Soit $X$ et de plein rang écrite sous forme partitionnée $(X, Ψ),$ avec le vecteur correspondant de totaux de calage $t_{X} = {({t^{'}}_{X}, {t^{'}}_{Ψ})}^{'},$ et soit $R$ toute matrice définie positive de dimensions $n \times n .$ Alors, le vecteur de poids calés $c = w + R X {(X^{'} R X)}^{- 1}$ $(t_{X} - X^{'} w),$ obtenu par la procédure de calage utilisant la mesure de distance ${(c - w)}^{'} R^{- 1} (c - w)$ et la contrainte $X^{'} c = t_{X}$ peut être décomposé comme il suit

$c = w + L_{Ψ} X {(X^{'} L_{Ψ} X)}^{- 1} [t_{X} - X^{'} w] + L_{X} Ψ {(Ψ^{'} L_{X} Ψ)}^{- 1} [t_{Ψ} - Ψ^{'} w], (2.9)$

où $L_{X} = R (I - P_{X})$ avec $P_{X} = X {(X^{'} R X)}^{- 1} X^{'} R,$ et $L_{Ψ} = R (I - P_{Ψ})$ avec $P_{Ψ} = Ψ {(Ψ^{'} R Ψ)}^{- 1} Ψ^{'} R .$ Le vecteur $c$ peut s'écrire

$c = c_{Ψ} + L_{Ψ} X {(X^{'} L_{Ψ} X)}^{- 1} [t_{X} - X^{'} c_{Ψ}], (2.10)$

où le vecteur

$c_{Ψ} = w + R Ψ {(Ψ^{'} R Ψ)}^{- 1} [t_{Ψ} - Ψ^{'} w]$

est généré par le calage des poids de sondage ne faisant intervenir que $Ψ$ et $t_{Ψ} .$ Par symétrie,

$c = c_{X} + L_{X} Ψ {(Ψ^{'} L_{X} Ψ)}^{- 1} [t_{Ψ} - Ψ^{'} c_{X}], (2.11)$

où

$c_{X} = w + R X {(X^{'} R X)}^{- 1} [t_{X} - X^{'} w] .$

Or, si $X$ est tel qu'en (2.7), avec le vecteur correspondant de totaux de calage $t_{X} = {(0^{'}, 0^{'})}^{'},$ et si $R = Λ^{0},$ alors il découle de (2.9) que (2.8) peut s'écrire sous la forme

$c = w + L_{Ψ} X {(X^{'} L_{Ψ} X)}^{- 1} [{\hat{X}}_{1} - {\hat{X}}_{3}] + L_{X} Ψ {(Ψ^{'} L_{X} Ψ)}^{- 1} [{\hat{Y}}_{2} - {\hat{Y}}_{3}],$

et donc

$\begin{array}{l} {\hat{X}}^{ROC} & = & {X^{'}}_{3} c_{3} = {\hat{X}}_{3} + {\hat{B}}_{1 x}^{o} ({\hat{X}}_{1} - {\hat{X}}_{3}) + {\hat{B}}_{2 x}^{o} ({\hat{Y}}_{2} - {\hat{Y}}_{3}) \\ = & {\hat{B}}_{1 x}^{o} {\hat{X}}_{1} + (I - {\hat{B}}_{1 x}^{o}) {\hat{X}}_{3} + {\hat{B}}_{2 x}^{o} ({\hat{Y}}_{2} - {\hat{Y}}_{3}), (2.12) \end{array}$

en notation évidente pour ${\hat{B}}_{1 x}^{o}$ et ${\hat{B}}_{2 x}^{o} .$ Une expression similaire s'obtient pour ${\hat{Y}}^{ROC} .$ On voit en examinant (2.12) que l'estimateur ROC ${\hat{X}}^{ROC}$ de $t_{x}$ est approximativement (pour les grands échantillons) sans biais, et tire son efficacité de la combinaison des deux estimateurs élémentaires ${\hat{X}}_{1}$ et ${\hat{X}}_{3}$ (mise en commun de l'information provenant des échantillons $S_{1}$ et $S_{3})$ et de l'emprunt d'information provenant de l'échantillon $S_{2}$ grâce à la corrélation entre $x$ et $y .$ Compte tenu de (2.10), l'estimateur ${\hat{X}}^{ROC}$ prend la forme de rechange

$\begin{array}{l} {\hat{X}}^{ROC} & = & {X^{'}}_{3} c_{3 Ψ} + {X^{'}}_{3} L_{Ψ} X {(X^{'} L_{Ψ} X)}^{- 1} [{X^{'}}_{1} c_{1 Ψ} - {X^{'}}_{3} c_{3 Ψ}] \\ = & {\hat{X}}_{3}^{RO} + {\hat{B}}_{1 x}^{o} [{\hat{X}}_{1}^{RO} - {\hat{X}}_{3}^{RO}] \\ = & {\hat{B}}_{1 x}^{o} {\hat{X}}_{1}^{RO} + (I - {\hat{B}}_{1 x}^{o}) {\hat{X}}_{3}^{RO}, (2.13) \end{array}$

où ${\hat{X}}_{i}^{RO} = {\hat{X}}_{i} + {X^{'}}_{i} Λ^{0} Ψ {(Ψ^{'} Λ^{0} Ψ)}^{- 1} ({\hat{Y}}_{2} - {\hat{Y}}_{3})$ représente les estimateurs par régression optimale (RO) incorporant l'effet de régression du dernier terme en (2.12).

Dans le cas de l'échantillonnage matriciel non emboîté, $Λ^{0} = diag {Λ_{i}^{0}},$ ${\hat{X}}_{1}^{RO} = {\hat{X}}_{1},$ ${\hat{X}}_{3}^{RO} = {\hat{X}}_{3} + \hat{Cov} ({\hat{X}}_{3}, {\hat{Y}}_{3}) {[\hat{V} ({\hat{Y}}_{2}) + \hat{V} ({\hat{Y}}_{3})]}^{- 1} [{\hat{Y}}_{2} - {\hat{Y}}_{3}],$ dont la variance approximative estimée est $\hat{AV} ({\hat{X}}_{3}^{RO}) = \hat{V} ({\hat{X}}_{3}) - \hat{Cov} ({\hat{X}}_{3}, {\hat{Y}}_{3}) {[\hat{V} ({\hat{Y}}_{2}) + \hat{V} ({\hat{Y}}_{3})]}^{- 1} {\hat{Cov}}^{'} ({\hat{X}}_{3}, {\hat{Y}}_{3}),$ et ${\hat{B}}_{1 x}^{o} = \hat{AV} ({\hat{X}}_{3}^{RO}) {[\hat{V} ({\hat{X}}_{1}) + \hat{AV} ({\hat{X}}_{3}^{RO})]}^{- 1}$ est le coefficient qui minimise la variance $\hat{AV} ({\hat{X}}^{ROC}) .$ La forme explicite $I - {\hat{B}}_{1 x}^{o} = \hat{V} ({\hat{X}}_{1}) {[\hat{V} ({\hat{X}}_{1}) + \hat{V} ({\hat{X}}_{3}) - \hat{Cov} ({\hat{X}}_{3}, {\hat{Y}}_{3}) \times {[\hat{V} ({\hat{Y}}_{2}) + \hat{V} ({\hat{Y}}_{3})]}^{- 1} {\hat{Cov}}^{'} ({\hat{X}}_{3}, {\hat{Y}}_{3})]}^{- 1}$ indique clairement que le terme $I - {\hat{B}}_{1 x}^{o}$ est d'autant plus grand que la corrélation entre $x$ et $y$ est forte, , et que plus de poids est donné à la composante moins variable ${\hat{X}}_{3}^{RO} .$ Dans cette connexion, on peut montrer facilement que $\hat{AV} ({\hat{X}}^{ROC})$ satisfait

$\hat{AV} ({\hat{X}}^{ROC}) {[\hat{V} ({\hat{X}}_{1})]}^{- 1} = {\hat{B}}_{1 x}^{o} < I, \hat{AV} ({\hat{X}}^{ROC}) {[\hat{AV} ({\hat{X}}_{3}^{RO})]}^{- 1} = I - {\hat{B}}_{1 x}^{o} < I .$

Ces inégalités sont également vérifiées pour toute combinaison linéaire des composantes de chacun des estimateurs concernés. L'efficacité de l'estimateur par régression optimale composite ${\hat{X}}^{ROC}$ dépasse d'une valeur correspondant aux quantités montrées l'efficacité de chacune de ses deux composantes ${\hat{X}}_{1}$ et ${\hat{X}}_{3}^{RO},$ l'efficacité dépendant de la force de la corrélation entre $x$ et $y .$ L'estimateur ${\hat{X}}^{ROC}$ est également plus efficace que l'estimateur ${\tilde{X}}^{ROC} = {\tilde{B}}_{1 x}^{o} {\hat{X}}_{1} + (I - {\tilde{B}}_{1 x}^{o}) {\hat{X}}_{3},$ avec ${\tilde{B}}_{1 x}^{o} = \hat{V} ({\hat{X}}_{3}) {[\hat{V} ({\hat{X}}_{1}) + \hat{V} ({\hat{X}}_{3})]}^{- 1},$ qui n'incorpore pas l'information sur $y$ (n'emprunte pas d'information à l'échantillon $S_{2})$ et dont la variance estimée est $\hat{AV} ({\tilde{X}}^{ROC}) = \hat{V} ({\hat{X}}_{1}) {[\hat{V} ({\hat{X}}_{1}) + \hat{V} ({\hat{X}}_{3})]}^{- 1} \hat{V} ({\hat{X}}_{3}) .$ En effet, en écrivant la variance $\hat{AV} ({\hat{X}}^{ROC}) = \hat{V} ({\hat{X}}_{1}) {\hat{B}}_{1 x}^{o}$ sous la forme $\hat{AV} ({\hat{X}}^{ROC}) = \hat{V} ({\hat{X}}_{1}) {[\hat{V} ({\hat{X}}_{1}) + \hat{V} ({\hat{X}}_{3})]}^{- 1} \hat{V} ({\hat{X}}_{3}) E,$ où $E = E_{1} E_{2}$ avec $E_{1} = [I - {(\hat{V} ({\hat{X}}_{3}))}^{- 1} \hat{Cov} ({\hat{X}}_{3}, {\hat{Y}}_{3}) {[\hat{V} ({\hat{Y}}_{2}) + \hat{V} ({\hat{Y}}_{3})]}^{- 1} {\hat{Cov}}^{'} ({\hat{X}}_{3}, {\hat{Y}}_{3})]$ et $E_{2} = {[I - {[\hat{V} ({\hat{X}}_{1}) + \hat{V} ({\hat{X}}_{3})]}^{- 1} \hat{Cov} ({\hat{X}}_{3}, {\hat{Y}}_{3}) {[\hat{V} ({\hat{Y}}_{2}) + \hat{V} ({\hat{Y}}_{3})]}^{- 1} {\hat{Cov}}^{'} ({\hat{X}}_{3}, {\hat{Y}}_{3})]}^{- 1},$ et en notant que $E \leq I,$ il s'ensuit que

$\hat{AV} ({\hat{X}}^{ROC}) {[\hat{AV} ({\tilde{X}}^{ROC})]}^{- 1} = E \leq I,$

c'est-à-dire que l'emprunt d'information à $S_{2}$ réduit la variance de l'estimateur composite de $t_{x}$ d'un facteur $E,$ qui dépend de la force de la corrélation entre $x$ et $y .$ Il est facile de vérifier que, pour deux variables scalaires $x$ et $y$ sous échantillonnage aléatoire simple, ce résultat se réduit au résultat analytique analogue sur l'efficacité de l'estimateur BLUE donné dans Chipperfield et Steel (2009, page 231). Dans ce cas simple, $E = [n_{1} + n_{3}] [n_{3} + n_{2} (1 - ρ^{2})] / [(n_{1} + n_{3}) (n_{2} + n_{3}) - n_{1} n_{2} ρ^{2}],$ où $ρ$ est la corrélation entre $x$ et $y .$ En guise d'exemple, en supposant que les tailles d'échantillon sont égales et que la corrélation $ρ = 0, 7,$ le gain d'efficacité est de 13,96 %.

Dans le cas de l'échantillonnage matriciel emboîté, les deux estimateurs en (2.13) sont ${\hat{X}}_{i}^{RO} = {\hat{X}}_{i} + \hat{Cov} ({\hat{X}}_{i}, \hat{Ψ}) {[\hat{V} (\hat{Ψ})]}^{- 1} [{\hat{Y}}_{2} - {\hat{Y}}_{3}],$ et ${\hat{B}}_{1 x}^{o} = [\hat{AV} ({\hat{X}}_{3}^{RO}) - \hat{AC} ({\hat{X}}_{1}^{RO}, {\hat{X}}_{3}^{RO})] {[\hat{AV} ({\hat{X}}_{1}^{RO}) + \hat{AV} ({\hat{X}}_{3}^{RO}) - 2 \hat{AC} ({\hat{X}}_{1}^{RO}, {\hat{X}}_{3}^{RO})]}^{- 1},$ où AC désigne la covariance approximative. Dans ce cas, en plus de la corrélation $ρ_{x 3, y 3}$ entre ${\hat{X}}_{3}$ et ${\hat{Y}}_{3}$ dans l'échantillon $S_{3},$ l'efficacité de ${\hat{X}}^{ROC}$ dépend des corrélations $ρ_{x 1, x 3}, ρ_{y 2, y 3}, ρ_{y 2, x 3}$ des estimateurs dues à la dépendance des sous-échantillons. Si $x$ et $y$ sont univariées et en émettant l'hypothèse simplificatrice que les plans de sondage sont identiques pour les trois sous-échantillons (comme dans le fractionnement égal de l'échantillon complet), nous obtenons certains indices au moyen des expressions simples $\hat{AV} ({\hat{X}}^{ROC}) = V ({\hat{X}}_{3}) [2 (1 - ρ_{x 1, x 3}^{2}) (1 - ρ_{y 2, y 3}) - {(ρ_{x 3, y 3} - ρ_{y 2, x 3})}^{2}] / [4 (1 - ρ_{x 1, x 3}) (1 - ρ_{y 2, y 3}) - {(ρ_{x 3, y 3} - ρ_{y 2, x 3})}^{2}],$ et $\hat{AV} ({\tilde{X}}^{ROC}) = V ({\hat{X}}_{3}) (1 + ρ_{x 1, x 3}) / 2 .$ Manifestement, l'estimateur ${\tilde{X}}^{ROC},$ qui ne tient pas compte de l'information sur $y,$ n'est plus efficace que la moyenne simple des estimateurs sur un seul échantillon de $t_{x}$ que si la corrélation $ρ_{x 1, x 3}$ est négative. L'efficacité de ${\hat{X}}^{ROC}$ par rapport à ${\tilde{X}}^{ROC}$

$\frac{\hat{AV} ({\hat{X}}^{ROC})}{\hat{AV} ({\tilde{X}}^{ROC})} = \frac{4 (1 - ρ_{x 1, x 3}^{2}) (1 - ρ_{y 2, y 3}) - 2 {(ρ_{x 3, y 3} - ρ_{y 2, x 3})}^{2}}{4 (1 - ρ_{x 1, x 3}^{2}) (1 - ρ_{y 2, y 3}) - (1 + ρ_{x 1, x 3}) {(ρ_{x 3, y 3} - ρ_{y 2, x 3})}^{2}}$

dépend du signe et de la grandeur de $ρ_{x 1, x 3}$ et de la grandeur de $| ρ_{x 3, y 3} - ρ_{y 2, x 3} | .$

Bien que la procédure de calage, avec le vecteur de poids calés (2.8), facilite considérablement le calcul de l'estimateur par régression optimale composite pour tout total d'intérêt, la matrice $Λ^{0}$ rend les calculs extrêmement exigeants, particulièrement dans le cas de l'échantillonnage emboîté où les sous-échantillons dépendent les uns des autres et $Λ^{0}$ n'est donc pas diag ${Λ_{i}^{0}} .$ En outre, les probabilités $π_{k l}$ ne sont pas connues pour la plupart des plans d'échantillonnage. Un estimateur par régression composite de rechange dont les calculs sont très rapides est élaboré à la section suivante.

Précédent | Suivant

Date de modification :: 2015-11-27

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

2. Estimation composite par régression optimale pour le plan (c)