Recherche par

3. Estimation composite par régression généralisée pour le plan (c)

Takis Merkouris

Une variante très commode sur le plan des calculs, mais généralement sous-optimale, de ${\hat{ℬ}}^{o}$ en (2.6) s'obtient en remplaçant la matrice $Λ^{0}$ par la « matrice de pondération » diagonale $Λ$ dont la $i k^{e}$ entrée diagonale est $w_{i k} / q_{i k},$ où les ${w_{i k}}$ sont les poids de sondage de $S_{i}$ et les ${q_{i k}}$ sont des constantes positives. Cela donne l'estimateur par régression généralisée composite (RGC) multivariée de ${({t^{'}}_{x}, {t^{'}}_{y})}^{'}$

$(\begin{matrix} {\hat{X}}^{RGC} \\ {\hat{Y}}^{RGC} \end{matrix}) = \hat{ℬ} (\begin{matrix} {\hat{X}}_{1} \\ {\hat{Y}}_{2} \end{matrix}) + (I - \hat{ℬ}) (\begin{matrix} {\hat{X}}_{3} \\ {\hat{Y}}_{3} \end{matrix}) = (\begin{matrix} {\hat{X}}_{3} \\ {\hat{Y}}_{3} \end{matrix}) + \hat{ℬ} (\begin{matrix} {\hat{X}}_{1} - {\hat{X}}_{3} \\ {\hat{Y}}_{2} - {\hat{Y}}_{3} \end{matrix}), (3.1)$

où $\hat{ℬ} = ({X^{'}}_{3} Λ X) {(X^{'} Λ X)}^{- 1}$ est le coefficient de régression de la matrice associée. Pour une discussion approfondie de l'estimateur par régression généralisée dans le cas d'un seul échantillon, voir Särndal et coll. (1992, chapitre 6). L'estimateur RGC peut s'écrire de manière compacte sous la forme ${\hat{X}}^{RGC} = {\hat{X}}_{3} - \hat{ℬ} \hat{X} [= {(X_{3} - X {\hat{ℬ}}^{'})}^{'} w],$ c'est-à-dire la somme pondérée des résidus de régression de l'échantillon. Le coefficient $\hat{ℬ}$ est optimal au sens des moindres carrés généralisés, c'est-à-dire qu'il minimise la forme quadratique ${(X_{3} - X \hat{ℬ^{'}})}^{'} Λ (X_{3} - X \hat{ℬ^{'}})$ dans ces résidus. Comme l'estimateur ROC, l'estimateur RGC peut aussi être obtenu dans la forme de calage comme ${X^{'}}_{3} c,$ où le vecteur $c = w + Λ X {(X^{'} Λ X)}^{- 1} (0 - X^{'} w)$ minimise la distance au sens des moindres carrés généralisés ${(c - w)}^{'} Λ^{- 1} (c - w)$ et satisfait les contraintes ${\hat{X}}_{1}^{RGC} = {\hat{X}}_{3}^{RGC}$ et ${\hat{Y}}_{2}^{RGC} = {\hat{Y}}_{3}^{RGC} .$ Cela étend au présent contexte l'équivalence bien connue de l'estimation par régression généralisée et de l'estimation par calage (Deville et Särndal 1992) dans le cas d'un échantillon unique. Or, en utilisant le sous-vecteur de poids calés $c_{3},$ pour l'échantillon $S_{3}$ seulement, nous obtenons les estimateurs composites donnés en (3.1) sous les formes linéaires simples ${\hat{X}}^{RGC} = {X^{'}}_{3} c_{3}$ et ${\hat{Y}}^{RGC} = {Y^{'}}_{3} c_{3} .$ En utilisant le lemme 1 et la structure diagonale de $Λ,$ il s'avère que ${\hat{X}}^{RGC}$ peut s'écrire

${\hat{X}}^{RGC} = {\hat{B}}_{1 x} {\hat{X}}_{1} + (I - {\hat{B}}_{1 x}) {\hat{X}}_{3}^{RG}, (3.2)$

où ${\hat{X}}_{3}^{RG} = {\hat{X}}_{3} + {X^{'}}_{3} Λ Ψ {(Ψ^{'} Λ Ψ)}^{- 1} ({\hat{Y}}_{2} - {\hat{Y}}_{3})$ est l'analogue par régression généralisée (RG) de ${\hat{X}}_{3}^{RO} .$ Le coefficient de régression de la matrice ${\hat{B}}_{1 x}$ s'écrit explicitement sous la forme ${\hat{B}}_{1 x} = {X^{'}}_{3} L_{Ψ} X {({X^{'}}_{1} Λ_{1} X_{1} + {X^{'}}_{3} L_{Ψ} X)}^{- 1},$ où ${X^{'}}_{3} L_{Ψ} X = {X^{'}}_{3} Λ_{3} X_{3} - {X^{'}}_{3} Λ_{3} Y_{3} {({Y^{'}}_{2} Λ_{2} Y_{2} + {Y^{'}}_{3} Λ_{3} Y_{3})}^{- 1} {Y^{'}}_{3} Λ_{3} X_{3} .$ Si $x$ et $y$ n'étaient pas corrélées, ou si l'information sur $y$ n'était pas utilisée dans l'estimation de $t_{x},$ on aurait alors ${\hat{X}}_{3}^{RG} = {\hat{X}}_{3}$ et ${\hat{B}}_{1 x} = {X^{'}}_{3} Λ_{3} X_{3} {({X^{'}}_{1} Λ_{1} X_{1} + {X^{'}}_{3} Λ_{3} X_{3})}^{- 1} .$ Mais l'estimateur RG ${\hat{X}}_{3}^{RG}$ est généralement plus efficace que l'estimateur HT ${\hat{X}}_{3},$ et puisque ${X^{'}}_{1} Λ_{1} X_{1} + {X^{'}}_{3} L_{Ψ} X < {X^{'}}_{1} Λ_{1} X_{1} + {X^{'}}_{3} Λ_{3} X_{3}$ (dans le classement par ordre partiel des matrices définies non négatives), il est clair que plus de poids est attribué à ${\hat{X}}_{3}^{RG}$ dans (3.2), par la voie de $I - {\hat{B}}_{1 x} = {X^{'}}_{1} Λ_{1} X_{1} {({X^{'}}_{1} Λ_{1} X_{1} + {X^{'}}_{3} L_{Ψ} X)}^{- 1},$ qu'il n'aurait été donné à l'estimateur composant ${\hat{X}}_{3}$ dans l'estimateur composite simple ne faisant intervenir que l'information sur $x .$ Cela donne à penser que l'estimateur RGC donné en (3.2), dans lequel est intégrée l'information provenant de l'échantillon $S_{2},$ est un estimateur plus efficace. L'efficacité de ${\hat{X}}^{RGC}$ est également suggérée par son expression de rechange, obtenue en utilisant (2.11), ${\hat{X}}^{RGC} = {\tilde{X}}^{RGC} + {X^{'}}_{3} L_{X} Ψ {(Ψ^{'} L_{X} Ψ)}^{- 1} [{\hat{Y}}_{2} - {\hat{Y}}_{3}^{RG}],$ où ${\tilde{X}}^{RGC} = {\hat{X}}_{3} + {X^{'}}_{3} Λ X {(X^{'} Λ X)}^{- 1} ({\hat{X}}_{1} - {\hat{X}}_{3}) = {\tilde{B}}_{1 x} {\hat{X}}_{1} + (I - {\tilde{B}}_{1 x}) {\hat{X}}_{3}$ est l'estimateur par régression composite de $t_{x}$ en utilisant l'information sur $x$ provenant de $S_{1}$ et $S_{3} .$

En général, l'estimateur RGC $({\hat{X}}^{RGC}, {\hat{Y}}^{RGC})$ plus simple à calculer, comprenant le coefficient $\hat{ℬ},$ est moins efficace que l'estimateur par régression optimale composite $({\hat{X}}^{ROC}, {\hat{Y}}^{ROC})$ qui fait intervenir le coefficient optimal estimé ${\hat{ℬ}}^{o}$ et possède la même variance asymptotique que l'estimateur BLUE donné en (2.3); la perte d'efficacité peut être plus importante dans le cas de l'échantillonnage matriciel emboîté, pour lequel la matrice $Λ^{0}$ n'est pas diagonale par blocs. Par ailleurs, $({\hat{X}}^{ROC}, {\hat{Y}}^{ROC})$ peut être instable pour les petits échantillons, quand le nombre de degrés de liberté disponibles pour l'estimation de ${\hat{ℬ}}^{o}$ est faible, ce qui est particulièrement le cas dans l'échantillonnage matriciel emboîté; pour une discussion de la stabilité relative de l'estimateur par régression optimale par opposition à la régression généralisée dans le cas d'un seul échantillon, voir Rao (1994) ou Montanari (1998). Pour certaines stratégies d'échantillonnage, décrites dans le théorème qui suit, $\hat{ℬ} = {\hat{ℬ}}^{o}$ et l'estimateur RGC coïncide avec l'estimateur ROC et, asymptotiquement, avec l'estimateur BLUE; la preuve est donnée en annexe.

Théorème 1 Considérons les stratégies d'échantillonnage suivantes.

Plan d'échantillonnage non emboîté

$a)$ Pour chacun des trois échantillons $S_{1}, S_{2}$ et $S_{3},$ supposons que l'on procède à un échantillonnage aléatoire simple stratifié sans remise (EASSTR) avec fraction d'échantillonnage $f_{i h} = n_{i h} / N_{i h}$ dans la strate $h$ de l'échantillon $i,$ $h = 1, \dots, H_{i}$ et que $N_{i h}$ désigne la taille de strate, et spécifions les constantes $q_{i k}$ dans $Λ_{i}$ sous la forme $q_{i k} = (n_{i h} - 1) / N_{i h} (1 - f_{i h})$ pour toutes les unités de la strate $h .$ En outre, supposons que, dans chaque échantillon, les unités sont triées par strate, et considérons la matrice de plan augmentée $Z = (X, D)$ donnée en (2.7), où $D$ est la matrice diagonale par blocs $diag {D_{1}, D_{2}, D_{3}}$ et $D_{i}$ est la matrice diagonale $diag {1_{i 1}, \dots, 1_{i h}, \dots, 1_{i H_{i}}},$ avec l'élément diagonal $1_{i h}$ correspondant à un vecteur de valeurs un pour toutes les unités de la strate $h$ dans l'échantillon $S_{i},$ et considérons le vecteur augmenté correspondant de totaux de calage $t_{Z} = {(0^{'}, 0^{'}, {N^{'}}_{1}, {N^{'}}_{2}, {N^{'}}_{3})}^{'},$ où $N_{i}$ est le vecteur des tailles des strates pour l'échantillon $S_{i} .$
$b)$ Pour chacun des trois échantillons $S_{1}, S_{2}$ et $S_{3},$ supposons que l'on procède à un échantillonnage de Poisson stratifié et spécifions les constantes $q_{i k}$ dans les entrées de $Λ_{i}$ sous la forme $q_{i k} = π_{i h k} / (1 - π_{i h k})$ pour les unités de la strate $h,$ où $π_{i h k}$ est la probabilité d'inclusion de l'unité $k$ dans la strate $h$ de la $i^{e}$ enquête.

Plan d'échantillonnage emboîté

$a ’)$ Supposons qu'un échantillon aléatoire simple stratifié initial $S$ est découpé par strate en trois sous-échantillons aléatoires simples $S_{1}, S_{2}$ et $S_{3} .$ Spécifions les fractions d'échantillonnage $f_{i h},$ les constantes $q_{i k}$ dans $Λ_{i},$ la matrice de plan $Z = (X, D)$ et le vecteur des totaux de calage $t_{Z}$ comme à la partie $(a) .$
$b ’)$ Supposons qu'un échantillon de Poisson stratifié initial $S$ est découpé aléatoirement par strate en trois sous-échantillons $S_{1}, S_{2}$ et $S_{3},$ avec probabilités d'inclusion inégales pour les unités de chaque sous-échantillon. Spécifions les constantes $q_{i k}$ dans $Λ_{i}$ sous la forme $q_{i k} = π_{i h k} / (1 - π_{i h k})$ pour les unités de la strate $h,$ où $π_{i h k}$ est la probabilité d'inclusion marginale de l'unité $k$ dans la strate $h$ pour le $i^{e}$ sous-échantillon.

Sous chacune des stratégies $(a)$ et $(b),$ la procédure de calage avec la matrice $Λ$ dans la mesure de distance au sens des moindres carrés donne l'estimateur RGC donné en (3.1) avec $\hat{ℬ} = {\hat{ℬ}}^{o},$ ce qui implique que l'estimateur RGC correspond à l'estimateur ROC. Pour $(a ’)$ et $(b ’),$ cette constatation est vérifiée approximativement quand les fractions d'échantillonnage dans les strates sont approximativement nulles.

Corollaire 1 Le résultat du théorème 1 est également vérifié pour les versions non stratifiées de chacun des quatre plans d'échantillonnage. Pour l'échantillonnage aléatoire simple sans remise (EAS), en particulier, la matrice $D$ se réduit à la matrice diagonale $diag {1_{1}, 1_{2}, 1_{3}}$ ayant pour $i^{e}$ élément diagonal unitaire de dimension $n_{i}$ le vecteur $1_{i},$ et le vecteur des totaux de calage est alors $t_{Z} = {(0^{'}, 0^{'}, N, N, N)}^{'} .$

Corollaire 2 Dans le cas de l'échantillonnage non emboîté, quand le plan d'échantillonnage pour chacun des trois échantillons est l'un des plans décrits en $(a)$ et $(b)$ ou l'une de leurs versions non stratifiées, mais qu'il n'est pas le même pour tous les échantillons, le résultat du théorème 1 est vérifié à condition que la matrice $D$ dans $Z$ et le vecteur $t_{Z}$ soient réduits de manière à correspondre uniquement aux échantillons pour lesquels est utilisé l'EAS ou l'EASSTR.

Le scénario de calage étendu dans le théorème $1 (a, a ’)$ comprend le calage sur les tailles de strate (ou sur la taille de population dans la version EAS) grâce à l'inclusion d'une ordonnée à l'origine pour chaque strate dans la matrice de plan $X .$ Aucune autre information que celle supposé pour le plan d'échantillonnage $(a)$ ou $(a ’)$ n'est utilisée, et la forme de l'estimateur RGC résultant demeure la même qu'en (3.1) parce que les estimations HT des tailles de la population et des strates sont exactes. L'effet de ce calage étendu (avec les valeurs spécifiées de $q_{i k})$ se limite à la conversion du coefficient RGC $\hat{ℬ}$ en le coefficient optimal ${\hat{ℬ}}^{o}$ et, donc, de l'estimateur RGC en l'estimateur ROC. L'importance pratique de cette conversion réside dans l'exécution de l'estimation par régression optimale composite selon la procédure de calage beaucoup plus simple de l'estimation par régression généralisée.

Le sous-échantillonnage comme à la partie $(a ’),$ en fixant a priori les tailles d'échantillon, est une procédure naturelle en échantillonnage matriciel comportant le fractionnement d'un questionnaire. Par contre, dans le scénario de sous-échantillonnage de la partie $(b ’),$ $n_{i}$ est la taille d'échantillon prévue de $S_{i},$ la taille réelle étant aléatoire. Des probabilités de sous-échantillonnage inégales peuvent être déterminées de manière adaptative pour accroître l'efficacité; voir Gonzalez et Eltinge (2008).

Les résultats du théorème 1 pourraient être étendus à d'autres plans d'échantillonnage, comme l'échantillonnage aléatoire simple à deux degrés stratifié sous échantillonnage matriciel non emboîté. Cependant, il ne serait pas plus facile d'apporter les ajustements requis aux matrices $Λ_{i}$ que d'utiliser directement les matrices $Λ_{i}^{0}$ dans le calage pour obtenir l'estimateur par régression optimale composite.

Pour les plans d'échantillonnage autres que ceux supposés dans le théorème 1, la valeur de $q_{i k}$ dans les entrées de $Λ_{i}$ doit être fixée à $q_{i k} = {\tilde{n}}_{i} / ({\tilde{n}}_{1} + {\tilde{n}}_{2} + {\tilde{n}}_{3}),$ où ${\tilde{n}}_{i} = n_{i} / d_{i}, d_{i}$ désigne l'effet de plan, afin de tenir compte des différences de taille effective d'échantillon entre les trois échantillons. Si le même plan est utilisé pour tous les échantillons, alors ${\tilde{n}}_{i} = n_{i} .$ La justification de cet ajustement s'appuie sur l'argument donné dans Merkouris (2010) pour un problème similaire d'estimation par régression composite.

Précédent | Suivant

Date de modification :: 2015-11-27

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

3. Estimation composite par régression généralisée pour le plan (c)