4. Estimation composite pour le plan d'échantillonnage matriciel (d)
Takis Merkouris
Précédent | Suivant
4.1 Ensemble de variables de base dont les totaux
sont connus
Nous commençons par discuter d'un cas
particulier du plan d'échantillonnage matriciel (d) dans lequel les totaux sont
connus pour les variables qui sont communes aux trois échantillons. Dans ces
conditions d'échantillonnage très réalistes, on recueille aussi auprès de tous
les échantillons l'information sur le même vecteur de variables auxiliaires
pour lequel le vecteur des totaux
de population
est connu. À titre d'illustration,
considérons de nouveau trois échantillons, comme à la figure 2.1 (mais avec
ajouté dans tous les sous-échantillons).
Alors, l'estimateur RGC
donné en (3.1) peut être augmenté
au moyen des termes de régression ordinaires
où
est l'estimateur HT de
fondé sur l'échantillon
nous procédons de façon
similaire pour
Cet estimateur est plus efficace,
car il incorpore de l'information additionnelle, et il est généré par une
procédure de calage qui comprend les trois contraintes supplémentaires
et possède la matrice de plan
donnée en (2.7) augmentée au
moyen de la matrice diagonale par blocs
Dans le cas le plus simple où
les matrices d'échantillon
se réduisent à la colonne de
valeurs unitaires
(avec total correspondant de la taille de la population),
le scénario de calage est celui spécifié dans le corollaire 1 susmentionné.
Comme il est montré dans la preuve du prochain théorème, une application du lemme 1
à la procédure actuelle de calage, avec la matrice de plan partitionnée
et les totaux de calage
donne une forme RGC modifiée
de (3.1) avec les estimateurs RG incorporant l'information sur
à la place des estimateurs HT.
Cela s'écrit de manière compacte sous la forme
où
avec
et
sont exprimés de manière
similaire, et où
avec
Le remplacement de
par
dans la procédure de calage donne
l'estimateur par régression optimale composite, écrit de manière compacte sous
la forme
avec les estimateurs par régression
optimale incorporant l'information sur
à la place des estimateurs RG,
et avec
où
En notant que
est la matrice des résidus
correspondant à
et que
et de même pour
il s'ensuit que
par analogie avec (2.4), ou avec (2.5) sous échantillonnage non emboîté. Donc,
est optimal au sens de la minimisation
de la variance approximative de l'estimateur
qui est alors asymptotiquement
équivalent à l'estimateur BLUE. Un estimateur de rechange, d'optimalité plus
faible, prend la forme
où le coefficient
possède la forme (4.1), mais
avec des estimateurs RG remplaçant les estimateurs RO. Cet estimateur, qui ne
diffère de l'estimateur RGC qu'en ce qui concerne le coefficient de régression,
est optimal au sens restreint où il est le composite des estimateurs RG incorporant
l'information sur
qui possède une variance
approximative minimale. En général, cet estimateur composite ne peut pas être
obtenu sous forme d'estimateur par calage. Le théorème qui suit donne les conditions
sous lesquelles l'estimateur RGC est optimal dans l'un des deux sens dans le
cas de l'échantillonnage matriciel non emboîté; la preuve est donnée en annexe.
La version avec échantillonnage emboîté du théorème, ainsi que les scénarios de
sous-échantillonnage et la preuve tels qu'au théorème 1, sont omis par
souci de concision.
Théorème 2 Considérons
les stratégies d'échantillonnage qui suivent.
- Pour chacun des trois échantillons
et
supposons un EAS avec les fractions
d'échantillonnage
et spécifions toutes les constantes
dans
sous la forme
Considérons la matrice de plan augmentée
en (2.7), où
avec le vecteur augmenté correspondant de
totaux de calage
En outre, supposons que
pour les vecteurs constants
- Alors, la procédure de calage donne l'estimateur RGC comme
étant
c'est-à-dire que l'estimateur RGC est le composite optimal
des estimateurs RG incorporant l'information sur
- Pour chacun des trois échantillons
et
supposons un EASSTR avec la fraction
d'échantillonnage
dans la strate
de l'échantillon
et que
désigne la taille de strate, et spécifions les
constantes dans
sous la forme
pour toutes les unités de la strate
En outre, supposons que, dans chaque
échantillon, les unités sont triées par strate, et considérons la matrice de
plan augmentée
donnée en (2.7), avec le vecteur
augmenté correspondant de totaux de calage
Les définitions de
et
sont les mêmes qu'auparavant.
- Alors, la procédure de calage donne l'estimateur RGC sous la
forme
c'est-à-dire
que l'estimateur RGC est le composite optimal des
estimateurs par régression optimale incorporant l'information sur
- Pour chacun des trois échantillons
et
supposons un échantillonnage de Poisson
stratifié et spécifions les constantes
dans les entrées de
sous la forme
pour les unités de la strate
- Alors, la procédure de calage, avec
et
comme en
donne l'estimateur RGC sous la forme
c'est-à-dire
que les estimateurs RG et RO sont identiques, et que
l'estimateur RGC est le composite optimal des estimateurs par régression
optimale incorporant l'information sur
La condition
en
du théorème 2 est habituellement
satisfaite quand le vecteur
contient des variables
catégoriques. Des résultats analogues aux corollaires 1 et 2 de la section
précédente sont également vérifiés pour les parties
et
du théorème 2. Ici aussi,
pour des plans d'échantillonnage autres que ceux supposés au théorème 2, la
valeur
doit être utilisée dans les
entrées de
Enfin, par analogie avec (3.2) et avec la
décomposition appropriée du vecteur de poids calés
l'estimateur composite
prend maintenant la forme
où
et
sont les estimateurs RG utilisant
l'information sur
provenant de
et l'information sur
et
provenant de
et
respectivement, et
est le coefficient de régression
de la matrice correspondante. L'expression pour
est similaire. Naturellement,
et
peuvent être obtenus directement
au moyen de ce vecteur
modifié sous les simples formes
linéaires
et
4.2 Ensemble de variables de base dont les totaux
sont inconnus
Examinons maintenant le cas du plan d'échantillonnage
matriciel (d) dans lequel les totaux pour les variables
qui sont communes aux trois
échantillons sont inconnus. Dans ces conditions, l'estimation comprend la
construction d'un estimateur composite du vecteur des totaux
En harmonie avec la formulation
de la section 2, les estimateurs composites de
et
qui sont les meilleures combinaisons
linéaires sans biais des estimateurs HT
sont donnés par
Les estimateurs en (4.2) peuvent
s'écrire sous la forme de régression matricielle
avec la matrice minimisant la variance des coefficients donnée par
où
Avec les matrices de covariance et
de variance estimées, nous obtenons la matrice optimale estimée
et (4.3) devient alors un estimateur
par régression multivariée optimale. Alors, en procédant comme à la section 2,
on peut montrer que
où
est la matrice de plan correspondant à l'estimateur par régression (4.3),
est la matrice
dont la deuxième colonne est
éliminée et dont les deux premières lignes sont fixées égales à zéro, et
est telle qu'il est défini à la
section 2.
Le remplacement de la matrice
par la matrice de pondération
donne le coefficient de
régression généralisée
et (4.3) devient l'estimateur
RGC de
L'estimateur (4.5) peut être obtenu
de manière commode par une procédure de calage qui donne un vecteur de poids
calés pour l'échantillon combiné
de la forme
comme auparavant, mais qui
satisfait maintenant la contrainte supplémentaire
L'expression (4.5) est alors obtenue
simplement comme
fondé sur l'échantillon
L'expression explicite (4.2), qui ne
diffère pour les variantes de la régression optimale et de la régression
généralisée que par la forme des coefficients linéaires, montre que les
estimateurs composites de
et
sont plus efficaces que leurs
analogues dans le plan d'échantillonnage matriciel (c), équation (2.2), parce
qu'ils incorporent l'information sur les variables communes
en supposant que la
corrélation avec
et
est non nulle. L'expression pour
l'estimateur composite de
est particulièrement
remarquable : elle comprend une combinaison linéaire des trois
estimateurs HT de
dérivée des trois
échantillons, ainsi que les deux termes de régression impliquant une efficacité
additionnelle par la voie de la corrélation de
avec
et
On s'attendrait à ce que les
termes additionnels soient nuls, parce qu'une combinaison optimale des trois
estimateurs devrait intégrer toute l'information sur
disponible dans les trois
échantillons. Cependant, en général, les coefficients associés ne sont pas nuls.
Sous échantillonnage non emboîté, les conditions dans lesquelles ces coefficients
sont nuls sont données par la proposition qui suit, dont la preuve figure en
annexe. Le résultat devrait également être vérifié sous échantillonnage emboîté.
Proposition 1 Les coefficients
et
dans l'estimateur
en (4.2) sont nuls uniquement si
Cela peut se produire seulement si les trois échantillons sont
sélectionnés selon des plans identiques, y compris des tailles d'échantillon
égales, ou s'ils sont sélectionnés selon le même plan avec probabilités
d'inclusion égales pour toutes les unités, mais pas nécessairement la même
taille d'échantillon.
En notant que les quantités dans chaque
membre des équations (4.6) sont les coefficients de régression, suivant la proposition 1,
les termes de l'estimateur
incorporant la corrélation de
avec
et
sont nuls uniquement si l'effet
de la régression de
et
sur
est identique dans les échantillons
et
et dans les échantillons
et
respectivement. L'essence de
cette constatation est que l'estimation de
en utilisant uniquement l'information
sur
provenant des trois
échantillons, mais en ignorant l'information sur
et
sera sous-optimale lorsque
l'effet de régression de
et
sur
diffère dans les divers échantillons.
L'efficacité de
par rapport à l'estimateur
composite
qui utilise uniquement l'information
sur
a pu être évaluée dans les
conditions simples comprenant les scalaires
et
l'échantillonnage aléatoire
simple pour
et
et l'échantillonnage de
Bernoulli pour
et des taux d'échantillonnage
égaux pour les trois échantillons. Alors, seule la première équation de (4.6) est
vérifiée. Après de nombreuses opérations algébriques fastidieuses, l'efficacité
de
par rapport à
a été dérivée comme étant
avec
où
et
désignent les coefficients de
corrélation dans la population, et
désigne les coefficients de
variation. Même si, dans ce scénario, l'écart par rapport aux conditions de la
proposition 1 est minime, différentes configurations des valeurs admissibles
pour
et
montrent que le gain
d'efficacité peut être considérable, palliant l'inefficacité de
l'estimateur HT de
basé sur l'échantillon de Bernoulli
Par exemple, quand
et
le gain d'efficacité est de 23 %.
Dans le cas de l'estimateur par régression optimale composite
avec les coefficients estimés
et
les coefficients de régression donnés
en (4.6) sont estimés, et donc les égalités en (4.6) ne seront jamais vérifiées
exactement à cause des différences entre les échantillons. Il en va de même
pour l'estimateur RGC
pour lequel les équations formellement
identiques à (4.6) sont données en fonction des coefficients de la régression
généralisée pour l'échantillon.
En ce qui concerne l'efficacité de
l'estimateur RGC (4.5), un analogue exact du théorème 1 est vérifié dans
les présentes conditions, avec les mêmes stratégies d'échantillonnage que
celles pour lesquelles l'estimateur RGC correspond à l'estimateur par
régression optimale et, asymptotiquement, à l'estimateur BLUE.
L'estimation composite pour un scénario
d'échantillonnage matriciel faisant intervenir un ensemble de variables de base
avec des totaux connus ainsi qu'inconnus peut être exécutée en utilisant le
scénario de calage étendu évident.
Précédent | Suivant