3. Estimation composite par régression généralisée pour le plan (c)
Takis Merkouris
Précédent | Suivant
Une variante très commode sur le plan
des calculs, mais généralement sous-optimale, de
en (2.6) s'obtient en
remplaçant la matrice
par la « matrice de
pondération » diagonale
dont la
entrée diagonale est
où
les
sont les poids de sondage de
et les
sont des constantes positives.
Cela donne l'estimateur par régression généralisée composite (RGC) multivariée de
où
est le coefficient de régression
de la matrice associée. Pour une discussion approfondie de l'estimateur par
régression généralisée dans le cas d'un seul échantillon, voir Särndal et coll. (1992, chapitre 6). L'estimateur
RGC peut s'écrire de manière compacte sous la forme
c'est-à-dire
la somme pondérée des résidus de régression de
l'échantillon. Le coefficient
est optimal au sens des moindres
carrés généralisés, c'est-à-dire qu'il
minimise la forme quadratique
dans ces résidus. Comme l'estimateur ROC,
l'estimateur RGC peut aussi être obtenu dans la forme de calage comme
où le vecteur
minimise la distance au sens des moindres
carrés généralisés
et satisfait les contraintes
et
Cela étend au présent contexte l'équivalence
bien connue de l'estimation par régression généralisée et de l'estimation par
calage (Deville et Särndal 1992) dans le
cas d'un échantillon unique. Or, en utilisant le sous-vecteur de poids calés
pour l'échantillon
seulement, nous obtenons les estimateurs
composites donnés en (3.1) sous les formes linéaires simples
et
En utilisant le lemme 1 et la
structure diagonale de
il s'avère que
peut s'écrire
où
est l'analogue par régression
généralisée (RG) de
Le coefficient de régression de
la matrice
s'écrit explicitement sous la
forme
où
Si
et
n'étaient pas corrélées, ou si l'information
sur
n'était pas utilisée dans l'estimation
de
on aurait alors
et
Mais l'estimateur RG
est généralement plus efficace
que l'estimateur HT
et puisque
(dans le classement par ordre partiel des matrices
définies non négatives), il est clair que plus de poids est attribué à
dans (3.2), par la voie de
qu'il n'aurait été donné à
l'estimateur composant
dans l'estimateur composite simple
ne faisant intervenir que l'information sur
Cela donne à penser que l'estimateur
RGC donné en (3.2), dans lequel est intégrée l'information provenant de
l'échantillon
est un estimateur plus efficace.
L'efficacité de
est également suggérée par son expression
de rechange, obtenue en utilisant (2.11),
où
est l'estimateur par régression
composite de
en utilisant l'information sur
provenant de
et
En général, l'estimateur RGC
plus simple à calculer,
comprenant le coefficient
est moins efficace que
l'estimateur par régression optimale composite
qui fait intervenir le
coefficient optimal estimé
et possède la même variance
asymptotique que l'estimateur BLUE donné en (2.3); la perte d'efficacité peut
être plus importante dans le cas de l'échantillonnage matriciel emboîté, pour
lequel la matrice
n'est pas diagonale par blocs.
Par ailleurs,
peut être instable pour les
petits échantillons, quand le nombre de degrés de liberté disponibles pour l'estimation
de
est faible, ce qui est
particulièrement le cas dans l'échantillonnage matriciel emboîté; pour une
discussion de la stabilité relative de l'estimateur par régression optimale par
opposition à la régression généralisée dans le cas d'un seul échantillon, voir Rao (1994) ou Montanari
(1998). Pour certaines stratégies d'échantillonnage, décrites dans le théorème
qui suit,
et l'estimateur RGC coïncide
avec l'estimateur ROC et, asymptotiquement, avec l'estimateur BLUE; la
preuve est donnée en annexe.
Théorème 1 Considérons
les stratégies d'échantillonnage suivantes.
Plan d'échantillonnage non emboîté
- Pour chacun des trois échantillons
et
supposons que l'on procède à un
échantillonnage aléatoire simple stratifié sans remise (EASSTR) avec fraction
d'échantillonnage
dans la strate
de l'échantillon
et que
désigne la taille de strate, et spécifions les
constantes
dans
sous la forme
pour toutes les unités de la strate
En outre, supposons que, dans chaque
échantillon, les unités sont triées par strate, et considérons la matrice de
plan augmentée
donnée en (2.7), où
est la matrice diagonale par blocs
et
est la matrice diagonale
avec l'élément diagonal
correspondant à un vecteur de valeurs un pour
toutes les unités de la strate
dans l'échantillon
et considérons le vecteur augmenté
correspondant de totaux de calage
où
est le vecteur des tailles des strates pour
l'échantillon
- Pour chacun des trois échantillons
et
supposons que l'on procède à un
échantillonnage de Poisson stratifié et spécifions les constantes
dans les entrées de
sous la forme
pour les unités de la strate
où
est la probabilité d'inclusion de l'unité
dans la strate
de la
enquête.
Plan d'échantillonnage emboîté
- Supposons qu'un échantillon aléatoire simple
stratifié initial
est découpé par strate en trois
sous-échantillons aléatoires simples
et
Spécifions les fractions d'échantillonnage
les constantes
dans
la matrice de plan
et le vecteur des totaux de calage
comme à la partie
- Supposons qu'un échantillon de Poisson
stratifié initial
est découpé aléatoirement par strate en trois
sous-échantillons
et
avec probabilités d'inclusion inégales pour
les unités de chaque sous-échantillon. Spécifions les constantes
dans
sous la forme
pour les unités de la strate
où
est la probabilité d'inclusion marginale de
l'unité
dans la strate
pour le
sous-échantillon.
Sous chacune des stratégies
et
la procédure de calage avec la matrice
dans la mesure de distance au sens des
moindres carrés donne l'estimateur RGC donné en (3.1) avec
ce qui implique que l'estimateur RGC
correspond à l'estimateur ROC. Pour
et
cette constatation est vérifiée
approximativement quand les fractions d'échantillonnage dans les strates sont
approximativement nulles.
Corollaire 1 Le résultat du théorème 1
est également vérifié pour les versions non stratifiées de chacun des quatre
plans d'échantillonnage. Pour l'échantillonnage aléatoire simple sans remise
(EAS), en particulier, la matrice
se réduit à la matrice diagonale
ayant pour
élément diagonal unitaire de dimension
le vecteur
et le vecteur des totaux de calage est alors
Corollaire 2 Dans le cas de
l'échantillonnage non emboîté, quand le plan d'échantillonnage pour chacun des
trois échantillons est l'un des plans décrits en
et
ou l'une de leurs versions non stratifiées,
mais qu'il n'est pas le même pour tous les échantillons, le résultat du
théorème 1 est vérifié à condition que la matrice
dans
et le vecteur
soient réduits de manière à correspondre
uniquement aux échantillons pour lesquels est utilisé l'EAS ou l'EASSTR.
Le scénario de calage étendu dans le théorème
comprend le
calage sur les tailles de strate (ou sur la taille de population dans la
version EAS) grâce à l'inclusion d'une ordonnée à l'origine pour chaque strate dans
la matrice de plan
Aucune autre information que
celle supposé pour le plan d'échantillonnage
ou
n'est utilisée, et la forme de l'estimateur
RGC résultant demeure la même qu'en (3.1) parce que les estimations HT des
tailles de la population et des strates sont exactes. L'effet de ce calage étendu
(avec les valeurs spécifiées de
se limite à la conversion du coefficient
RGC
en le coefficient optimal
et, donc, de l'estimateur RGC
en l'estimateur ROC. L'importance pratique de cette conversion réside dans
l'exécution de l'estimation par régression optimale composite selon la
procédure de calage beaucoup plus simple de l'estimation par régression
généralisée.
Le sous-échantillonnage comme à la partie
en fixant a priori les tailles
d'échantillon, est une procédure naturelle en échantillonnage matriciel comportant
le fractionnement d'un questionnaire. Par contre, dans le scénario de
sous-échantillonnage de la partie
est la taille d'échantillon prévue
de
la taille réelle étant
aléatoire. Des probabilités de sous-échantillonnage inégales peuvent être
déterminées de manière adaptative pour accroître l'efficacité; voir Gonzalez et Eltinge (2008).
Les résultats du théorème 1 pourraient
être étendus à d'autres plans d'échantillonnage, comme l'échantillonnage
aléatoire simple à deux degrés stratifié sous échantillonnage matriciel non
emboîté. Cependant, il ne serait pas plus facile d'apporter les ajustements requis
aux matrices
que d'utiliser directement les
matrices
dans le calage pour obtenir
l'estimateur par régression optimale composite.
Pour les plans d'échantillonnage autres
que ceux supposés dans le théorème 1, la valeur de
dans les entrées de
doit être fixée à
où
désigne l'effet de plan, afin
de tenir compte des différences de taille effective d'échantillon entre les
trois échantillons. Si le même plan est utilisé pour tous les échantillons, alors
La justification de cet
ajustement s'appuie sur l'argument donné dans Merkouris
(2010) pour un problème similaire d'estimation par régression composite.
Précédent | Suivant