Recherche par

7. Discussion

Takis Merkouris

La méthode d'estimation proposée pour l'échantillonnage matriciel comprend un calage en une étape des poids de l'échantillon combiné. Les estimations des totaux pour toutes les variables peuvent être obtenues en utilisant uniquement les unités de l'échantillon $S_{3}$ et leurs poids calés qui incorporent toute l'information disponible provenant des trois échantillons. Ces poids pourraient être utilisés pour calculer d'autres statistiques pondérées, dont des moyennes, des ratios, des quantiles et des coefficients de régression. Lorsque les probabilités d'inclusion d'ordre deux sont connues, y compris les probabilités d'inclusion interéchantillons dans le cas emboîté, la procédure de calage de la section 2 peut produire des estimateurs par régression optimale composites et leurs variances, mais les calculs sont très difficiles. Pour des configurations d'échantillonnage générales, le scénario de calage beaucoup plus simple de la section 3 produit facilement des estimateurs par régression généralisée composites, qui, pour certaines stratégies d'échantillonnage, sont des estimateurs par régression optimale.

L'estimation de la variance d'un estimateur RGC peut, en principe, être fondée sur la méthode de linéarisation de Taylor de l'estimateur par régression généralisée (voir, par exemple, Särndal et coll. 1992, pages 235 et 237). Cette approche requiert des calculs qui pourraient ne pas être pratiques, voire même possibles, pour des plans d'échantillonnage complexes, parce que les probabilités d'inclusion d'ordre deux sont rarement connues. Les méthodes de rééchantillonnage pour l'estimation de la variance, telles que la méthode du jackknife ou la méthode du bootstrap (voir, par exemple, Rust et Rao 1996), peuvent être appliquées aux estimateurs RGC des sections précédentes. Ainsi, la méthode du jackknife, habituellement utilisée dans les enquêtes avec plan d'échantillonnage stratifié à plusieurs degrés, pourrait être utilisée pour répéter les procédures de calage qui donnent lieu aux estimateurs RGC. Pour le plan d'échantillonnage non emboîté, il est nécessaire d'appliquer la méthode du jackknife à l'échantillon combiné, en traitant les trois échantillons indépendants comme des superstrates d'échantillon contenant les strates de l'échantillon. La procédure de rééchantillonnage s'appliquerait alors à l'échantillon combiné trié par échantillon et par strate dans chaque échantillon, pour produire les répliques des poids calés définis aux sections précédentes. Le nombre total de strates utilisées dans la procédure de rééchantillonnage par le jackknife est le nombre total de strates dans les trois échantillons, chaque réplique comprenant toutes les strates. Les fichiers de microdonnées à grande diffusion peuvent contenir les poids de rééchantillonnage calés pour permettre aux utilisateurs d'estimer facilement la variance. À cette fin également, seuls les poids de rééchantillonnage pour $S_{3}$ doivent être inclus, ce qui permet de réaliser une importante économie de stockage de données dans ces fichiers de microdonnées. Le cas du plan d'échantillonnage emboîté est plus compliqué. Des investigations plus poussées dans cette direction seront le sujet d'une étude distincte.

La méthode d'estimation décrite s'adapte facilement aux plans d'échantillonnage matriciel comprenant plus de deux sous-questionnaires ou plus de trois sous-échantillons, ce qui fait ressortir la puissance opérationnelle de la procédure de calage. Dans chaque cas, l'étape cruciale consiste à déterminer la matrice de plan $X .$ De tels plans peuvent comporter des scénarios plus complexes en ce qui concerne le nombre de sous-questionnaires administrés aux divers sous-échantillons. Toutes les estimations composites peuvent alors être obtenues en utilisant uniquement les valeurs des variables pondérées provenant du nombre minimal de sous-échantillons qui, combinés, contiennent tous les items.

Remerciements

L'auteur remercie le rédacteur, le rédacteur associé et deux examinateurs de leurs commentaires et suggestions qui lui ont permis d'améliorer considérablement le manuscrit.

Annexe

Preuve du lemme 1

Pour la matrice partitionnée $X = (X, Ψ)$ le vecteur $c = w + R X {(X^{'} R X)}^{- 1} (t_{X} - X^{'} w)$ prend la forme

$\begin{array}{l} c & = & w + (R X, R Ψ) {(\begin{matrix} X^{'} R X & X^{'} R Ψ \\ Ψ^{'} R X & Ψ^{'} R Ψ \end{matrix})}^{- 1} (\begin{matrix} t_{X} - X^{'} w \\ t_{Ψ} - Ψ^{'} w \end{matrix}) \\ = & w + (R X A_{11} + R Ψ A_{21}) (t_{X} - X^{'} w) + (R X A_{12} + R Ψ A_{22}) (t_{Ψ} - Ψ^{'} w), \end{array}$

où, découlant de l'algèbre des matrices partitionnées, $A_{11} = {[X^{'} R X - X^{'} R Ψ {(Ψ^{'} R Ψ)}^{- 1} Ψ^{'} R X]}^{- 1} = {[X^{'} R (I - P_{Ψ}) X]}^{- 1}$ avec $P_{Ψ} = Ψ {(Ψ^{'} R Ψ)}^{- 1} Ψ^{'} R,$ $A_{22} = {[Ψ^{'} R (I - P_{X}) Ψ^{'}]}^{- 1}$ avec $P_{X} = X {(X^{'} R X)}^{- 1} X^{'} R,$ $A_{12} = - {(X^{'} R X)}^{- 1} (X^{'} R Ψ) A_{22}$ et $A_{21} = - {(Ψ^{'} R Ψ)}^{- 1} (Ψ^{'} R X) A_{11} .$ Alors, l'équation (2.9) s'ensuit sans difficulté. Pour prouver l'équation (2.10), nous posons que $c_{Ψ} = w + R Ψ {(Ψ^{'} R Ψ)}^{- 1} (t_{Ψ} - Ψ^{'} w),$ de sorte que $(X^{'} R Ψ) {(Ψ^{'} R Ψ)}^{- 1} (t_{Ψ} - Ψ^{'} w) = X^{'} c_{Ψ} - X^{'} w,$ et nous utilisons la forme de rechange $A_{22} = {(Ψ^{'} R Ψ)}^{- 1} + {(Ψ^{'} R Ψ)}^{- 1} (Ψ^{'} R X) A_{11} (X^{'} R Ψ) {(Ψ^{'} R Ψ)}^{- 1}$ pour écrire $c$ susmentionné sans le deuxième terme sous la forme

$\begin{array}{l} w & + & R Ψ A_{22} (t_{Ψ} - Ψ^{'} w) - R X {(X^{'} R X)}^{- 1} (X^{'} R Ψ) A_{22} (t_{Ψ} - Ψ^{'} w) \\ = & w + [R Ψ {(Ψ^{'} R Ψ)}^{- 1} + R Ψ {(Ψ^{'} R Ψ)}^{- 1} (Ψ^{'} R X) A_{11} (X^{'} R Ψ) {(Ψ^{'} R Ψ)}^{- 1}] (t_{Ψ} - Ψ^{'} w) \\ - & R X {(X^{'} R X)}^{- 1} [I + (X^{'} R Ψ) {(Ψ^{'} R Ψ)}^{- 1} (Ψ^{'} R X) A_{11}] (X^{'} R Ψ) {(Ψ^{'} R Ψ)}^{- 1} (t_{Ψ} - Ψ^{'} w) \\ = & c_{Ψ} + R Ψ {(Ψ^{'} R Ψ)}^{- 1} (Ψ^{'} R X) A_{11} (X^{'} c_{Ψ} - X^{'} w) \\ - & R X {(X^{'} R X)}^{- 1} [I + (X^{'} R Ψ) {(Ψ^{'} R Ψ)}^{- 1} (Ψ^{'} R X) A_{11}] (X^{'} c_{Ψ} - X^{'} w) \\ = & c_{Ψ} + R Ψ {(Ψ^{'} R Ψ)}^{- 1} (Ψ^{'} R X) A_{11} (X^{'} c_{Ψ} - X^{'} w) \\ - & R X {(X^{'} R X)}^{- 1} [I + (X^{'} R X - A_{11}^{- 1}) A_{11}] (X^{'} c_{Ψ} - X^{'} w) \\ = & c_{Ψ} + [R Ψ {(Ψ^{'} R Ψ)}^{- 1} (Ψ^{'} R X) - R X] A_{11} (X^{'} c_{Ψ} - X^{'} w) \\ = & c_{Ψ} - R (I - P_{Ψ}) X {[X^{'} R (I - P_{Ψ}) X]}^{- 1} (X^{'} c_{Ψ} - X^{'} w) . \end{array}$

L'ajout à cela du deuxième terme de $c$ provenant de (2.9) donne (2.10) sous la forme explicite

$c_{Ψ} + R (I - P_{Ψ}) X {[X^{'} R (I - P_{Ψ}) X]}^{- 1} (t_{X} - X^{'} c_{Ψ}) .$

Preuve du théorème 1

$a)$ Le calage avec la matrice de plan $Z = (X, D)$ et le vecteur de totaux $t_{Z} = {(0^{'}, N^{'})}^{'},$ avec $0 = {(0^{'}, 0^{'})}^{'},$ $N = {({N^{'}}_{1}, {N^{'}}_{2}, {N^{'}}_{3})}^{'},$ donne le vecteur de poids calés $c = w + Λ Z {(Z^{'} Λ Z)}^{- 1} (t_{Z} - Z^{'} w),$ qui, en vertu du lemme 1, s'écrit sous la forme $c = c_{D} + L_{D} X {(X^{'} L_{D} X)}^{- 1} (0 - X^{'} c_{D}),$ où $c_{D} = w + Λ D {(D^{'} Λ D)}^{- 1} (N - D^{'} w)$ et $L_{D} = Λ (I - P_{D}),$ avec $P_{D} = D {(D^{'} Λ D)}^{- 1} D^{'} Λ .$ Dans le cas de l'EASSTR avec $f_{i h} = n_{i h} / N_{i h},$ $D^{'} w = \hat{N} = N$ et, donc $c = w + L_{D} X {(X^{'} L_{D} X)}^{- 1} (0 - X^{'} w) .$ Alors, compte tenu de (2.8), afin de montrer que $\hat{ℬ} = {\hat{ℬ}}^{o},$ il suffit de montrer que $L_{D} = Λ^{0} .$ Pour l'EASSTR, il est facile de montrer que $Λ^{0} = diag {λ_{i h} (I - P_{1 i h})},$ où $λ_{i h} = N_{i h}^{2} (1 - f_{i h}) / [n_{i h} (n_{i h} - 1)]$ et $P_{1 i h} = 1_{i h} {({1^{'}}_{i h} 1_{i h})}^{- 1} {1^{'}}_{i h} .$ Ensuite, observons que la matrice $P_{D}$ est diagonale avec pour $i h^{e}$ entrée $1_{i h} {({1^{'}}_{i h} Λ_{i h} 1_{i h})}^{- 1} {1^{'}}_{i h} Λ_{i h} = P_{1 i h},$ parce que les éléments de $Λ_{i h}$ sont constants. Comme cet élément constant est $w_{i k} / q_{i k} = (N_{i h} / n_{i h}) [N_{i h} (1 - f_{i h}) / (n_{i h} - 1)] = λ_{i h},$ nous obtenons $L_{D} = diag {Λ_{i h} (I - P_{1 i h})} = Λ^{0},$ c.q.f.d.

$b)$ Pour l'échantillonnage de Poisson, $Λ_{i}^{0} = diag {(1 - π_{i h k}) / π_{i h k}^{2}}, h = 1, \dots, H_{i} .$ La preuve découle immédiatement de l'observation que, avec les constantes spécifiées $q_{i k}$ dans les entrées de $Λ_{i},$ nous avons $Λ_{i} = Λ_{i}^{0} .$

$a ’)$ Pour simplifier, laissons tomber l'indice inférieur de strate. Le sous-échantillonnage aléatoire simple est effectué séquentiellement avec des tailles fixes $n_{1}, n_{2}$ et $n_{3} .$ On peut montrer que les probabilités d'inclusion marginales d'ordre un et d'ordre deux pour $S_{i}$ sont $π_{i k} = n_{i} / N$ et $π_{i k l} = n_{i} (n_{i} - 1) / [N (N - 1)],$ comme si $S_{i}$ était tiré directement de $U .$ Un argument combinatoire montre que la probabilité d'inclusion d'ordre deux conditionnelle (sachant $S)$ pour $S_{i}$ et $S_{j}$ est $π_{i k j l | S} = n_{i} n_{j} / [n (n - 1)]$ et donc que la probabilité d'inclusion marginale est $π_{i k j l} = n_{i} n_{j} / [N (N - 1)] .$ Pour $k = l, π_{i k j k} = 0.$ Alors $Δ_{k l} = π_{i k j l} - π_{i k} π_{j l} = n_{i} n_{j} / [N^{2} (N - 1)]$ et $Δ_{k k} = - n_{i} n_{j} / N^{2} .$ Donc $Δ_{k l} \approx 0,$ pour $k, l \in U$ quand les fractions d'échantillonnage sont faibles, et donc $Λ^{0} \approx diag {Λ_{i}^{0}} .$ L'optimalité de l'estimateur RGC découle alors du théorème 1 (a).

$b ’)$ Attribuer aléatoirement les unités de $S$ aux trois sous-échantillons, avec une taille de sous-échantillon prévue fixe, implique que l'inclusion des unités est effectuée indépendamment à l'intérieur des sous-échantillons et entre les sous-échantillons. Puisque, dans l'échantillonnage de Poisson, les unités de $U$ sont également incluses dans $S$ indépendamment, $Δ_{k l} = π_{i k j l} - π_{i k} π_{j l} = 0$ et $Δ_{k k} = - π_{i k} π_{j l} .$ $Δ_{k k}$ est approximativement nul pour les petites fractions d'échantillonnage, et alors $Λ^{0} \approx diag {Λ_{i}^{0}} .$ L'optimalité de l'estimateur RGC découle alors du théorème $1 (b) .$

Preuve du théorème 2

Nous partons de l'expression de l'estimateur RGC. En vertu du lemme 1, avec la matrice de plan partitionnée $(X, Z)$ et $R = Λ,$ le vecteur de poids calés $c$ peut être écrit sous la forme $c = c_{Z} + L_{Z} X {(X^{'} L_{Z} X)}^{- 1} (0 - X^{'} c_{Z}),$ où $c_{Z} = w + Λ Z {(Z^{'} Λ Z)}^{- 1} (t_{(z)} - Z^{'} w)$ et $L_{Z} = Λ (I - P_{Z}) .$ Alors ${\hat{X}}_{3}^{RG} = {X^{'}}_{3} c_{Z} = {\hat{X^{'}}}_{3} + {X^{'}}_{3} Λ Z {(Z^{'} Λ Z)}^{- 1} (t_{(z)} - \hat{Z})$ et ${\hat{X}}^{RG} = \hat{X} + X^{'} Λ Z {(Z^{'} Λ Z)}^{- 1} (t_{(z)} - \hat{Z}) .$ Il s'ensuit que l'estimateur RGC est donné par ${X^{'}}_{3} c = {\hat{X}}_{3}^{RG} - \hat{ℬ} {\hat{X}}^{RG},$ où $\hat{ℬ} = [{X^{'}}_{3} Λ (I - P_{Z}) X] {[X^{'} Λ (I - P_{Z}) X]}^{- 1} .$

Puisque $P_{Z} = diag {P_{Z_{i}}}$ et, pour l'EAS, $Λ^{0} = diag {λ_{i} (I - P_{1 i})},$ où $λ_{i} = N^{2} (1 - f_{i}) / [n_{i} (n_{i} - 1)]$ et $P_{1 i} = 1_{i} {({1^{'}}_{i} 1_{i})}^{- 1} {1^{'}}_{i},$ nous avons $Λ^{0} (I - P_{Z}) = diag {λ_{i} (I - P_{1 i}) (I - P_{Z_{i}})} .$ Or, par hypothèse $1 = Z_{i} h_{i},$ de sorte que $1^{'} P_{Z_{i}} = 1^{'}$ et donc $P_{1 i} (I - P_{Z_{i}}) = 0 .$ Par conséquent, $Λ^{0} (I - P_{Z}) = diag {λ_{i} (I - P_{Z_{i}})}$ et, puisque les matrices $I - P_{Z_{i}}$ sont idempotentes, ${(I - P_{Z})}^{'} Λ^{0} (I - P_{Z}) = diag {λ_{i} (I - P_{Z_{i}})} .$ Mais $λ_{i} = w_{i k} / q_{i k},$ où $w_{i k} = N / n_{i}$ et les $q_{i k}$ sont les constantes spécifiées dans les entrées de $Λ_{i} .$ Il s'ensuit que ${(I - P_{Z})}^{'} Λ^{0} (I - P_{Z}) = diag {Λ_{i} (I - P_{Z_{i}})} = Λ (I - P_{Z})$ et donc $\hat{ℬ} = {\hat{ℬ}}^{w o},$ de sorte que ${\hat{X}}_{3}^{RG} - \hat{ℬ} {\hat{X}}^{RG} = {\hat{X}}_{3}^{RG} - {\hat{ℬ}}^{w o} {\hat{X}}^{RG} .$
En vertu du lemme 1, avec la matrice de plan partitionnée $Z = (X, Z, D)$ et le vecteur de totaux $t_{Z} = {(0^{'}, {t^{'}}_{(z)}, N^{'})}^{'},$ le vecteur de poids calés $c = w + Λ Z {(Z^{'} Λ Z)}^{- 1} (t_{Z} - Z^{'} w)$ peut s'écrire sous la forme $c = c_{D} + L_{D} (X, Z) {[{(X, Z)}^{'} L_{D} (X, Z)]}^{- 1} [{(0^{'}, {t^{'}}_{(z)})}^{'} - {(X, Z)}^{'} c_{D}],$ où $c_{D} = w + Λ D {(D^{'} Λ D)}^{- 1} (N - D^{'} w)$ et $L_{D} = Λ (I - P_{D}),$ avec $P_{D} = D {(D^{'} Λ D)}^{- 1} D^{'} Λ .$ Mais, comme il est montré dans la preuve du théorème 1 (a), $c_{D} = w$ et $L_{D} = Λ^{0} .$ Donc, $c = w + Λ^{0} (X, Z) {[{(X, Z)}^{'} Λ^{0} (X, Z)]}^{- 1} [{(0^{'}, {t^{'}}_{(z)})}^{'} - {(X, Z)}^{'} w] .$ Ensuite, en appliquant de nouveau le lemme 1, maintenant avec $R = Λ^{0}$ et la matrice de plan $(X, Z),$ nous obtenons $c = c_{Z} + L_{Z}^{0} X {(X^{'} L_{Z}^{0} X)}^{- 1} (0 - X^{'} c_{Z}),$ où $c_{Z} = w + Λ^{0} Z {(Z^{'} Λ^{0} Z)}^{- 1} (t_{(z)} - Z^{'} w)$ et $L_{Z}^{0} = Λ^{0} (I - P_{Z}^{0}) .$ Alors, il s'ensuit que l'estimateur RGC est ${X^{'}}_{3} c = {X^{'}}_{3} c_{Z} - {X^{'}}_{3} L_{Z}^{0} X {(X^{'} L_{Z}^{0} X)}^{- 1} X^{'} c_{Z} = {\hat{X}}_{3}^{RO} - {\hat{ℬ}}^{o} {\hat{X}}^{RO},$ en les expressions évidentes pour ${\hat{X}}_{3}^{RO}, {\hat{X}}^{RO}$ et ${\hat{ℬ}}^{o} .$
Il a été montré dans la preuve du théorème 1 que $Λ = Λ^{0} .$ Clairement, il est alors vérifié que ${\hat{X}}_{3}^{RG} = {\hat{X}}_{3}^{RO},$ ${\hat{X}}^{RG} = {\hat{X}}^{RO}$ et $\hat{ℬ} = {\hat{ℬ}}^{o},$ et donc ${\hat{X}}_{3}^{RG} - \hat{ℬ} {\hat{X}}^{RG} = {\hat{X}}_{3}^{RO} - {\hat{ℬ}}^{o} {\hat{X}}^{RO} .$

Preuve de la proposition 1

Toutes les matrices qui apparaissent dans cette preuve sont définies au niveau de la population. Le partitionnement de la matrice $X$ donnée en (4.4) sous la forme $(Z, Ψ),$ où $Z$ est constituée des deuxième et quatrième colonnes, et $Ψ,$ du reste, et en appliquant le lemme 1 avec $R = Λ^{0} =$ ${(π_{k l} - π_{k} π_{l}) / π_{k} π_{l}},$ nous obtenons le vecteur de poids calés décomposé de la forme

$c = w + L_{Ψ}^{0} Z {(Z^{'} L_{Ψ}^{0} Z)}^{- 1} [0 - Z^{'} w] + L_{Z}^{0} Ψ {(Ψ^{'} L_{Z}^{0} Ψ)}^{- 1} [0 - Ψ^{'} w],$

où $L_{Z}^{0} = Λ^{0} (I - P_{Z}^{0})$ avec $P_{Z}^{0} = Z {(Z^{'} Λ^{0} Z)}^{- 1} Z^{'} Λ^{0} .$ L'estimateur ${\hat{Z}}^{B}$ donné en (4.2) s'obtient sous la forme ${Z^{'}}_{3 -} c,$ où $Z_{3 -} = {(0^{'}, 0^{'}, {Z^{'}}_{3})}^{'} .$ Les deux derniers termes de (4.2) sont consolidés dans le terme ${Z^{'}}_{3 -} L_{Z}^{0} Ψ {(Ψ^{'} L_{Z}^{0} Ψ)}^{- 1} [0 - Ψ^{'} w] .$ Ces deux termes disparaissent uniquement si ${Z^{'}}_{3 -} L_{Z}^{0} Ψ (= {Z^{'}}_{3 -} Λ^{0} Ψ - {Z^{'}}_{3 -} Λ^{0} Z {(Z^{'} Λ^{0} Z)}^{- 1} Z^{'} Λ^{0} Ψ) = 0 .$ Premièrement, nous obtenons facilement ${Z^{'}}_{3 -} Λ^{0} Ψ = ({Z^{'}}_{3} Λ_{3}^{0} X_{3}, {Z^{'}}_{3} Λ_{3}^{0} Y_{3})$ et ${Z^{'}}_{3 -} Λ^{0} Z = {Z^{'}}_{3} Λ_{3}^{0} Z_{3} (I, I),$ ainsi que

$Z^{'} Λ^{0} Ψ = (\begin{matrix} {Z^{'}}_{1} Λ_{1}^{0} X_{1} + {Z^{'}}_{3} Λ_{3}^{0} X_{3} & {Z^{'}}_{3} Λ_{3}^{0} Y_{3} \\ {Z^{'}}_{3} Λ_{3}^{0} X_{3} & {Z^{'}}_{2} Λ_{2}^{0} Y_{2} + {Z^{'}}_{3} Λ_{3}^{0} Y_{3} \end{matrix}),$

$Z^{'} Λ^{0} Z = (\begin{matrix} {Z^{'}}_{1} Λ_{1}^{0} Z_{1} + {Z^{'}}_{3} Λ_{3}^{0} Z_{3} & {Z^{'}}_{3} Λ_{3}^{0} Z_{3} \\ {Z^{'}}_{3} Λ_{3}^{0} Z_{3} & {Z^{'}}_{2} Λ_{2}^{0} Z_{2} + {Z^{'}}_{3} Λ_{3}^{0} Z_{3} \end{matrix}) .$

Ensuite, nous écrivons

${(Z^{'} Λ^{0} Z)}^{- 1} = {(\begin{matrix} A & B \\ B^{'} & D \end{matrix})}^{- 1} = (\begin{matrix} A^{- 1} + F E^{- 1} F^{'} & - F E^{- 1} \\ - E^{- 1} F^{'} & E^{- 1} \end{matrix}),$

où $E = D - B^{'} A^{- 1} B$ et $F = A^{- 1} B .$ Il s'ensuit alors que ${Z^{'}}_{3 -} Λ^{0} Z {(Z^{'} Λ^{0} Z)}^{- 1} = (B A^{- 1} + B F E^{- 1} F^{'} - B E^{- 1} F^{'}, B (I - F) E^{- 1}) = ((D - B) E^{- 1} F^{'}, B (I - F) E^{- 1}) .$ En utilisant les expressions analytiques $B = {Z^{'}}_{3} Λ_{3}^{0} Z_{3},$ $D = {Z^{'}}_{2} Λ_{2}^{0} Z_{2} + {Z^{'}}_{3} Λ_{3}^{0} Z_{3},$ $F = {({Z^{'}}_{1} Λ_{1}^{0} Z_{1} + {Z^{'}}_{3} Λ_{3}^{0} Z_{3})}^{- 1} {Z^{'}}_{3} Λ_{3}^{0} Z_{3}$ et $E = {Z^{'}}_{2} Λ_{2}^{0} Z_{2} + {Z^{'}}_{1} Λ_{1}^{0} Z_{1} F,$ nous obtenons après certaines opérations algébriques

${Z^{'}}_{3 -} Λ^{0} Z {(Z^{'} Λ^{0} Z)}^{- 1} = K^{- 1} [{({Z^{'}}_{1} Λ_{1}^{0} Z_{1})}^{- 1}, {({Z^{'}}_{2} Λ_{2}^{0} Z_{2})}^{- 1}],$

où $K = {({Z^{'}}_{1} Λ_{1}^{0} Z_{1})}^{- 1} + {({Z^{'}}_{2} Λ_{2}^{0} Z_{2})}^{- 1} + {({Z^{'}}_{3} Λ_{3}^{0} Z_{3})}^{- 1} .$ Nous pouvons obtenir sans trop de difficulté

$\begin{array}{l} {Z^{'}}_{3 -} L_{Z}^{0} Ψ & = & {Z^{'}}_{3 -} Λ^{0} Ψ - {Z^{'}}_{3 -} Λ^{0} Z {(Z^{'} Λ^{0} Z)}^{- 1} Z^{'} Λ^{0} Ψ \\ = & K^{- 1} [{({Z^{'}}_{3} Λ_{3}^{0} Z_{3})}^{- 1} {Z^{'}}_{3} Λ_{3}^{0} X_{3} - {({Z^{'}}_{1} Λ_{1}^{0} Z_{1})}^{- 1} {Z^{'}}_{1} Λ_{1}^{0} X_{1}, \\ {({Z^{'}}_{3} Λ_{3}^{0} Z_{3})}^{- 1} {Z^{'}}_{3} Λ_{3}^{0} Y_{3} - {({Z^{'}}_{2} Λ_{2}^{0} Z_{2})}^{- 1} {Z^{'}}_{2} Λ_{2}^{0} Y_{2}] . \end{array}$

Il s'ensuit que ${Z^{'}}_{3 -} L_{Z}^{0} Ψ = (0, 0)$ uniquement si ${({Z^{'}}_{3} Λ_{3}^{0} Z_{3})}^{- 1} {Z^{'}}_{3} Λ_{3}^{0} X_{3} = {({Z^{'}}_{1} Λ_{1}^{0} Z_{1})}^{- 1} {Z^{'}}_{1} Λ_{1}^{0} X_{1}$ et ${({Z^{'}}_{3} Λ_{3}^{0} Z_{3})}^{- 1} {Z^{'}}_{3} Λ_{3}^{0} Y_{3} = {({Z^{'}}_{2} Λ_{2}^{0} Z_{2})}^{- 1} {Z^{'}}_{2} Λ_{2}^{0} Y_{2} .$ Mais ces deux équations sont identiques aux équations données en (4.6). Puisque dans ${({Z^{'}}_{i} Λ_{i}^{0} Z_{i})}^{- 1} {Z^{'}}_{i} Λ_{i}^{0} X_{i}$ toutes les matrices sont définies au niveau de la population, avec l'indice inférieur $i = 1,3$ indiquant l'enquête, cette quantité n'est constante pour les diverses enquêtes que si la matrice particulière au plan $Λ_{i}^{0}$ est constante, ou que $Λ_{i}^{0}$ diffère d'une enquête à l'autre d'un multiple constant (dépendant de la taille de l'échantillon). Cela demeure également vrai pour ${({Z^{'}}_{i} Λ_{i}^{0} Z_{i})}^{- 1} {Z^{'}}_{i} Λ_{i}^{0} Y_{i},$ $i = 2,3,$ ce qui achève la preuve.

Preuve de la proposition 2

Sous le scénario d'échantillonnage (a) du théorème 1, le calage composite au niveau de la population avec la matrice de plan $Z = (X, D)$ et le vecteur de totaux $t_{Z} = {(0^{'}, N^{'})}^{'}$ produit l'estimateur de domaine RGC conjoint de ${({t^{'}}_{x d}, {t^{'}}_{y d})}^{'}$ fondé sur les poids de $S_{3}$ et s'écrit sous la forme ${\hat{X}}_{3 d}^{RGC} = {\hat{X}}_{3 d} + {\hat{ℬ}}_{d} (t_{Z} - \hat{Z}),$ où ${\hat{ℬ}}_{d} = {X^{'}}_{3 d} Λ Z {(Z^{'} Λ Z)}^{- 1} .$ La matrice associée des résidus de régression est $X_{3 d} - Z {\hat{ℬ}}^{'}_{d},$ qui peut aussi s'écrire $(I - P_{Z}) X_{3 d},$ avec $P_{Z} = Z {(Z^{'} Λ Z)}^{- 1} Z^{'} Λ .$ Alors, $\hat{AV} ({\hat{X}}_{3 d}^{RGC}) = {X^{'}}_{3 d} {(I - P_{Z})}^{'} Λ^{0} (I - P_{Z}) X_{3 d} .$ Ensuite, rappelons que, d'après la preuve du théorème 1, $Λ^{0} = Λ (I - P_{D}),$ avec $P_{D} = D {(D^{'} Λ D)}^{- 1} D^{'} Λ,$ et notons que $D = Z H$ pour une matrice constante appropriée $H .$ Il est facile de montrer que $P_{D} P_{Z} = P_{D} .$ Il s'ensuit alors que $Λ^{0} (I - P_{Z}) = Λ (I - P_{Z})$ et ${(I - P_{Z})}^{'} Λ^{0} (I - P_{Z}) = Λ (I - P_{Z}) .$ Donc, $\hat{AV} ({\hat{X}}_{3 d}^{RGC}) = {X^{'}}_{3 d} Λ (I - P_{Z}) X_{3 d} .$ Or, le calage composite au niveau du domaine fait intervenir la matrice de plan $Z_{d} = (X_{d}, D);$ il n'est pas nécessaire de restreindre $D$ au domaine $U_{d} .$ L'estimateur RGC résultant est ${\overset{⌣}{X}}_{3 d}^{RGC} = {\hat{X}}_{3 d} + {\overset{⌣}{ℬ}}_{d} (t_{Z_{d}} - {\hat{Z}}_{d}),$ où ${\overset{⌣}{ℬ}}_{d} = {X^{'}}_{3 d} Λ Z_{d} {({Z^{'}}_{d} Λ Z_{d})}^{- 1} .$ Comme pour l'estimateur ${\hat{X}}_{3 d}^{RGC}$ susmentionné, on peut montrer que $\hat{AV} ({\overset{⌣}{X}}_{3 d}^{RGC}) = {X^{'}}_{3 d} Λ (I - P_{Z_{d}}) X_{3 d},$ où $P_{Z_{d}} = Z_{d} {({Z^{'}}_{d} Λ Z)}_{d}^{- 1} {Z^{'}}_{d} Λ .$ Alors $\hat{AV} ({\hat{X}}_{3 d}^{RGC}) - \hat{AV} ({\overset{⌣}{X}}_{3 d}^{RGC}) = {X^{'}}_{3 d} Λ (P_{Z_{d}} - P_{Z}) X_{3 d} .$ En notant que ${X^{'}}_{3 d} Λ Z = {X^{'}}_{3 d} Λ Z_{d},$ nous pouvons écrire $P_{Z} = Z_{d} {(Z^{'} Λ Z)}^{- 1} {Z^{'}}_{d} Λ .$ Il est alors trivial de montrer que $(P_{Z_{d}} - P_{Z}) = {(P_{Z_{d}} - P_{Z})}^{2},$ et puisque la matrice $Λ$ est diagonale avec entrées positives, il s'ensuit que ${X^{'}}_{3 d} Λ (P_{Z_{d}} - P_{Z}) X_{3 d} > 0$ et donc $\hat{AV} ({\overset{⌣}{X}}_{3 d}^{RGC}) < \hat{AV} ({\hat{X}}_{3 d}^{RGC}) .$

Sous les conditions de la partie $(b),$ $Λ = Λ^{0}$ et l'estimateur de domaine RGC est identique à l'estimateur de domaine ROC ${\hat{X}}_{3 d}^{ROC} = {\hat{X}}_{3 d} - {\hat{ℬ}}_{d}^{0} \hat{X},$ où ${\hat{ℬ}}_{d}^{0} = {X^{'}}_{3 d} Λ^{0} X {(X^{'} Λ^{0} X)}^{- 1} .$ La matrice associée aux résidus de régression est $(I - P_{X}) X_{3 d},$ avec $P_{X} = X {(X^{'} Λ^{0} X)}^{- 1} X^{'} Λ^{0} .$ Alors, $\hat{AV} ({\hat{X}}_{3 d}^{ROC}) = {X^{'}}_{3 d} {(I - P_{X})}^{'} Λ^{0} (I - P_{X}) X_{3 d} = {X^{'}}_{3 d} Λ^{0} (I - P_{X}) X_{3 d} .$ Par ailleurs, pour l'estimateur ${\overset{⌣}{X}}_{3 d}^{ROC} = {\overset{⌣}{X}}_{3 d} - {\overset{⌣}{ℬ}}_{d}^{0} \hat{X},$ où ${\hat{ℬ}}_{d}^{0} = {X^{'}}_{3 d} Λ^{0} X_{d} {({X^{'}}_{d} Λ^{0} X_{d})}^{- 1}$ nous avons $\hat{AV} ({\overset{⌣}{X}}_{3 d}^{ROC}) = {X^{'}}_{3 d} Λ^{0} (I - P_{X_{d}}) X_{3 d},$ avec $P_{X_{d}} = X_{d} {({X^{'}}_{d} Λ^{0} X_{d})}^{- 1} {X^{'}}_{d} Λ^{0} .$ Alors, $\hat{AV} ({\hat{X}}_{3 d}^{ROC}) - \hat{AV} ({\overset{⌣}{X}}_{3 d}^{ROC}) = {X^{'}}_{3 d} Λ^{0} (P_{X_{d}} - P_{X}) X_{3 d} .$ Notons que ${X^{'}}_{3 d} Λ^{0} X_{d} = {X^{'}}_{3 d} Λ^{0} X_{3 d}$ et, puisque $Λ^{0}$ est diagonale, ${X^{'}}_{3 d} Λ^{0} X = {X^{'}}_{3 d} Λ^{0} X_{3 d} .$ Il s'ensuit que ${X^{'}}_{3 d} Λ^{0} (P_{X_{d}} - P_{X}) X_{3 d} = {X^{'}}_{3 d} Λ^{0} {(P_{X_{d}} - P_{X})}^{2} X_{3 d}$ et donc $\hat{AV} ({\overset{⌣}{X}}_{3 d}^{ROC}) < \hat{AV} ({\hat{X}}_{3 d}^{ROC}) .$

Pour les parties $(a ’)$ et $(b ’),$ la preuve est la même qu'en $(a)$ et $(b),$ compte tenu de la preuve du théorème 1.

Bibliographie

Andersson, P.G., et Thorburn, D. (2005). Une distance de calage optimale menant à un estimateur par la régression optimal. Techniques d'enquête,1, 1, 103-107.

Australian Bureau of Statistics (2011). Household Expenditure Survey and Survey of Income and Housing, Guide d'utilisateur, Australie, 2009-10 (numéro du cat. 6503.0).

Chipperfield, J.O., et Steel, D.G. (2009). Design and estimation for split questionnaire surveys. Journal of Official Statistics, 25, 227-244.

Chipperfield, J.O., et Steel, D.G. (2011). Efficiency of split questionnaire surveys. Journal of Statistical Planning and Inference, 141, 1925-1932.

Deville, J.-C., et Särndal, C.-E. (1992). Calibration estimators in survey sampling. Journal of the American Statistical Association,87, 376-382.

Fuller, W.A. (1990). Analyse d'enquêtes à passages répétés. Techniques d'enquête, 16, 2, 177-190.

Gonzalez, J.M., et Eltinge, J.L. (2007). Multiple matrix sampling: A review. Proceedings of the Survey Research Methods Section, American Statistical Association, 3069-3075.

Gonzalez, J.M., et Eltinge, J.L. (2008). Adaptive matrix sampling for the consumer expenditure quarterly interview survey. Proceedings of the Survey Research Methods Section, American Statistical Association, 3069-3075.

Hidiroglou, M.A. (2001). L'échantillonnage double. Techniques d'enquête, 27, 2, 157-169.

Houbiers, M. (2004). Towards a social statistical database on unified estimates at Statistics Netherlands. Journal of Official Statistics, 20, 55-75.

Jones, R.G. (1980). Best linear unbiased estimators for repeated surveys. Journal of the Royal Statistical Society, Serie B, 42, 221-226.

Kim, J.K., et Rao, J.N.K. (2012). Combining data from two independent surveys: A model-assisted approach. Biometrika, 99, 1, 85-100.

Merkouris, T. (2004). Combining independent regression estimators from multiple surveys. Journal of the American Statistical Association, 99, 1131-1139.

Merkouris, T. (2010). Combining information from multiple surveys by using regression for more efficient small domain estimation. Journal of the Royal Statistical Society, Serie B, 72, 27-48.

Montanari, G.E. (1987). Post-sampling efficient QR-prediction in large-scale surveys. Revue Internationale de Statistique, 55, 191-202.

Montanari, G.E. (1998). Estimation de la moyenne d'une population finie par régression. Techniques d'enquête, 24, 1, 71-79.

Raghunathan, T.E., et Grizzle, J.E. (1995). A split questionnaire survey design. Journal of the American Statistical Association, 90, 54-63.

Rao, J.N.K. (1994). Estimating totals and distribution functions using auxiliary information at the estimation stage. Journal of Official Statistics, 10, 153-165.

Renssen, R.H. (1998). Utilisation de méthodes d'appariement statistique dans l'estimation de calage. Techniques d'enquête, 24, 2, 185-199.

Renssen, R.H., et Nieuwenbroek, N.J. (1997). Aligning estimates for common variables in two or more sample surveys. Journal of the American Statistical Association, 92, 368-375.

Rust, K.F., et Rao, J.N.K. (1996). Variance estimation for complex surveys using replication techniques. Statistical Methods in Medical Research, 5, 283-310.

Särndal, C.-E., Swensson, B. et Wretman, J.H. (1992). Model-Assisted Survey Sampling, New York : Springer.

Smith, P. (2009). Survey harmonization in official household surveys in the United Kingdom. Proceedings of the ISI World Statistical Congresses, Dublin.

Thomas, N., Raghunathan, T.E., Schenker, N., Katzoff, M.J. et Johnson, C.L. (2006). Une évaluation des méthodes d'échantillonnage matriciel à l'aide de données provenant de la « National Health and Nutrition Examination Survey ». Techniques d'enquête, 32, 2, 241-257.

Wolter, K.M. (1979). Composite estimation in finite populations. Journal of the American Statistical Association, 74, 604-613.

Wu, C. (2004). Combining information from multiple surveys through the empirical likelihood method. Canadian Journal of Statistics, 32, 15-26.

Date de modification :: 2015-11-27

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

7. Discussion

Remerciements

Annexe

Bibliographie