7. Discussion
Takis Merkouris
Précédent
La méthode d'estimation proposée pour
l'échantillonnage matriciel comprend un calage en une étape des poids de
l'échantillon combiné. Les estimations des totaux pour toutes les variables peuvent
être obtenues en utilisant uniquement les unités de l'échantillon
et leurs poids calés qui incorporent
toute l'information disponible provenant des trois échantillons. Ces poids pourraient
être utilisés pour calculer d'autres statistiques pondérées, dont des moyennes,
des ratios, des quantiles et des coefficients de régression. Lorsque les
probabilités d'inclusion d'ordre deux sont connues, y compris les probabilités
d'inclusion interéchantillons dans le cas emboîté, la procédure de calage de la
section 2 peut produire des estimateurs par régression optimale composites
et leurs variances, mais les calculs sont très difficiles. Pour des configurations
d'échantillonnage générales, le scénario de calage beaucoup plus simple de la section 3
produit facilement des estimateurs par régression généralisée composites, qui,
pour certaines stratégies d'échantillonnage, sont des estimateurs par
régression optimale.
L'estimation de la variance d'un estimateur
RGC peut, en principe, être fondée sur la méthode de linéarisation de Taylor de
l'estimateur par régression généralisée (voir, par exemple, Särndal et coll. 1992, pages 235 et
237). Cette approche requiert des calculs qui pourraient ne pas être pratiques,
voire même possibles, pour des plans d'échantillonnage complexes, parce que les
probabilités d'inclusion d'ordre deux sont rarement connues. Les méthodes de
rééchantillonnage pour l'estimation de la variance, telles que la méthode du jackknife
ou la méthode du bootstrap (voir, par exemple, Rust
et Rao 1996), peuvent être appliquées aux estimateurs RGC des sections
précédentes. Ainsi, la méthode du jackknife, habituellement utilisée dans les enquêtes
avec plan d'échantillonnage stratifié à plusieurs degrés, pourrait être
utilisée pour répéter les procédures de calage qui donnent lieu aux estimateurs
RGC. Pour le plan d'échantillonnage non emboîté, il est nécessaire d'appliquer
la méthode du jackknife à l'échantillon combiné, en traitant les trois
échantillons indépendants comme des superstrates d'échantillon contenant les
strates de l'échantillon. La procédure de rééchantillonnage s'appliquerait alors
à l'échantillon combiné trié par échantillon et par strate dans chaque échantillon,
pour produire les répliques des poids calés définis aux sections précédentes. Le
nombre total de strates utilisées dans la procédure de rééchantillonnage par le
jackknife est le nombre total de strates dans les trois échantillons, chaque réplique
comprenant toutes les strates. Les fichiers de microdonnées à grande diffusion
peuvent contenir les poids de rééchantillonnage calés pour permettre aux
utilisateurs d'estimer facilement la variance. À cette fin également, seuls les
poids de rééchantillonnage pour
doivent être inclus, ce qui
permet de réaliser une importante économie de stockage de données dans ces
fichiers de microdonnées. Le cas du plan d'échantillonnage emboîté est plus
compliqué. Des investigations plus poussées dans cette direction seront le
sujet d'une étude distincte.
La méthode d'estimation décrite
s'adapte facilement aux plans d'échantillonnage matriciel comprenant plus de
deux sous-questionnaires ou plus de trois sous-échantillons, ce qui fait
ressortir la puissance opérationnelle de la procédure de calage. Dans chaque
cas, l'étape cruciale consiste à déterminer la matrice de plan
De tels plans peuvent
comporter des scénarios plus complexes en ce qui concerne le nombre de sous-questionnaires
administrés aux divers sous-échantillons. Toutes les estimations composites peuvent
alors être obtenues en utilisant uniquement les valeurs des variables pondérées
provenant du nombre minimal de sous-échantillons qui, combinés, contiennent
tous les items.
Remerciements
L'auteur
remercie le rédacteur, le rédacteur associé et deux examinateurs de leurs commentaires
et suggestions qui lui ont permis d'améliorer considérablement le manuscrit.
Annexe
Preuve du lemme 1
Pour la matrice partitionnée
le vecteur
prend la forme
où, découlant de l'algèbre des matrices partitionnées,
avec
avec
et
Alors, l'équation (2.9) s'ensuit
sans difficulté. Pour prouver l'équation (2.10), nous posons que
de sorte que
et nous utilisons la forme de
rechange
pour écrire
susmentionné sans le deuxième terme
sous la forme
L'ajout à cela du deuxième terme de
provenant de (2.9) donne (2.10) sous
la forme explicite
Preuve du théorème 1
-
Le calage avec la matrice de plan
et le vecteur de totaux
avec
donne le vecteur de poids calés
qui, en vertu du lemme 1, s'écrit
sous la forme
où
et
avec
Dans le cas de l'EASSTR avec
et, donc
Alors, compte tenu de (2.8), afin
de montrer que
il suffit de montrer que
Pour l'EASSTR, il est facile de
montrer que
où
et
Ensuite, observons que la
matrice
est diagonale avec pour
entrée
parce que les éléments de
sont constants. Comme cet élément
constant est
nous obtenons
c.q.f.d.
-
Pour l'échantillonnage de Poisson,
La preuve découle immédiatement de
l'observation que, avec les constantes spécifiées
dans les entrées de
nous avons
-
Pour simplifier, laissons tomber l'indice
inférieur de strate. Le sous-échantillonnage aléatoire simple est effectué
séquentiellement avec des tailles fixes
et
On peut montrer que les probabilités
d'inclusion marginales d'ordre un et d'ordre deux pour
sont
et
comme si
était tiré directement de
Un argument combinatoire montre
que la probabilité d'inclusion d'ordre deux conditionnelle (sachant
pour
et
est
et donc que la probabilité
d'inclusion marginale est
Pour
Alors
et
Donc
pour
quand les fractions
d'échantillonnage sont faibles, et donc
L'optimalité de l'estimateur RGC
découle alors du théorème 1 (a).
-
Attribuer aléatoirement les unités de
aux trois sous-échantillons, avec
une taille de sous-échantillon prévue fixe, implique que l'inclusion des unités
est effectuée indépendamment à l'intérieur des sous-échantillons et entre les
sous-échantillons. Puisque, dans l'échantillonnage de Poisson, les unités de
sont également incluses dans
indépendamment,
et
est approximativement nul pour
les petites fractions d'échantillonnage, et alors
L'optimalité de l'estimateur RGC
découle alors du théorème
Preuve du théorème 2
Nous partons de l'expression de
l'estimateur RGC. En vertu du lemme 1, avec la matrice de plan
partitionnée et le vecteur de poids calés peut être écrit sous la forme
où et Alors et Il s'ensuit que l'estimateur RGC est donné par
où
- Puisque
et, pour l'EAS, où et nous avons Or, par hypothèse de sorte que et donc Par conséquent, et, puisque les matrices sont idempotentes, Mais où et les sont les constantes spécifiées
dans les entrées de Il s'ensuit que et donc de sorte que
- En vertu du lemme 1, avec
la matrice de plan partitionnée et le vecteur de totaux le vecteur de poids calés peut s'écrire sous la forme où et avec Mais, comme il est montré dans
la preuve du théorème 1 (a), et Donc, Ensuite, en appliquant de
nouveau le lemme 1, maintenant avec et la matrice de plan nous obtenons où et Alors, il s'ensuit que l'estimateur
RGC est en les expressions évidentes pour et
- Il a été montré dans la
preuve du théorème 1 que Clairement, il est alors vérifié
que et et donc
Preuve de la proposition 1
Toutes les matrices qui apparaissent
dans cette preuve sont définies au niveau de la population. Le partitionnement
de la matrice donnée en (4.4) sous la forme
où est constituée des deuxième
et quatrième colonnes, et du reste, et en appliquant le
lemme 1 avec nous obtenons le vecteur de poids calés décomposé
de la forme
où avec L'estimateur donné en (4.2) s'obtient sous la
forme où Les deux derniers termes de
(4.2) sont consolidés dans le terme Ces deux termes disparaissent
uniquement si Premièrement, nous obtenons facilement et ainsi que
et
Ensuite, nous écrivons
où et Il s'ensuit alors que En utilisant les expressions
analytiques et nous obtenons après certaines
opérations algébriques
où Nous pouvons obtenir sans trop
de difficulté
Il s'ensuit que uniquement si et Mais ces deux équations sont identiques
aux équations données en (4.6). Puisque dans toutes les matrices sont définies
au niveau de la population, avec l'indice inférieur indiquant l'enquête, cette quantité
n'est constante pour les diverses enquêtes que si la matrice particulière au
plan est constante, ou que diffère d'une enquête à l'autre d'un
multiple constant (dépendant de la taille de l'échantillon). Cela demeure
également vrai pour ce qui achève la preuve.
Preuve de la proposition 2
Sous le scénario d'échantillonnage (a) du
théorème 1, le calage composite au niveau de la population avec la matrice
de plan et le vecteur de totaux produit l'estimateur de domaine RGC conjoint de
fondé sur les poids de et s'écrit sous la forme où La matrice associée des résidus
de régression est qui peut aussi s'écrire avec Alors, Ensuite, rappelons que, d'après la preuve du
théorème 1, avec et notons que pour une matrice constante
appropriée Il est facile de montrer que Il s'ensuit alors que et Donc, Or, le calage composite au
niveau du domaine fait intervenir la matrice de plan il n'est pas nécessaire de
restreindre au domaine L'estimateur RGC résultant
est où Comme pour l'estimateur susmentionné, on peut montrer
que où Alors En notant que nous pouvons écrire Il est alors trivial de
montrer que et puisque la matrice est diagonale avec entrées positives,
il s'ensuit que et donc
Sous les conditions de la partie et l'estimateur de domaine
RGC est identique à l'estimateur de domaine ROC où La matrice associée aux résidus
de régression est avec Alors, Par ailleurs, pour l'estimateur
où nous avons avec Alors, Notons que et, puisque est diagonale, Il s'ensuit que et donc
Pour les parties et la preuve est la même qu'en et compte tenu de la preuve du théorème 1.
Bibliographie
Andersson, P.G., et Thorburn, D. (2005). Une distance de calage optimale
menant à un estimateur par la régression optimal. Techniques d'enquête,1, 1, 103-107.
Australian Bureau of
Statistics (2011). Household Expenditure Survey and Survey of Income and
Housing, Guide d'utilisateur, Australie, 2009-10 (numéro du cat. 6503.0).
Chipperfield, J.O., et Steel,
D.G. (2009). Design and estimation for split questionnaire surveys. Journal
of Official Statistics, 25,
227-244.
Chipperfield, J.O., et Steel,
D.G. (2011). Efficiency of split questionnaire surveys. Journal of
Statistical Planning and Inference, 141, 1925-1932.
Deville, J.-C., et Särndal, C.-E. (1992). Calibration estimators in survey sampling. Journal of the American Statistical
Association,87, 376-382.
Fuller, W.A. (1990). Analyse d'enquêtes à passages répétés. Techniques
d'enquête, 16, 2, 177-190.
Gonzalez, J.M., et Eltinge, J.L. (2007). Multiple matrix sampling: A review. Proceedings of the Survey Research
Methods Section, American Statistical Association, 3069-3075.
Gonzalez, J.M., et Eltinge, J.L. (2008). Adaptive matrix sampling for the consumer expenditure quarterly interview
survey. Proceedings of the Survey Research Methods Section, American
Statistical Association, 3069-3075.
Hidiroglou, M.A. (2001). L'échantillonnage double. Techniques d'enquête, 27, 2, 157-169.
Houbiers, M. (2004).
Towards a social statistical database on unified estimates at Statistics
Netherlands. Journal of Official Statistics, 20, 55-75.
Jones, R.G. (1980). Best
linear unbiased estimators for repeated surveys. Journal of the Royal
Statistical Society, Serie B, 42,
221-226.
Kim, J.K., et Rao, J.N.K.
(2012). Combining data from two independent surveys: A model-assisted approach. Biometrika, 99, 1, 85-100.
Merkouris, T. (2004).
Combining independent regression estimators from multiple surveys. Journal
of the American Statistical Association, 99, 1131-1139.
Merkouris, T. (2010).
Combining information from multiple surveys by using regression for more
efficient small domain estimation. Journal of the Royal Statistical Society,
Serie B, 72, 27-48.
Montanari, G.E. (1987). Post-sampling efficient
QR-prediction in large-scale surveys. Revue Internationale de Statistique, 55, 191-202.
Montanari, G.E. (1998). Estimation de la moyenne d'une population finie
par régression. Techniques d'enquête, 24, 1, 71-79.
Raghunathan, T.E., et Grizzle, J.E. (1995). A split questionnaire survey
design. Journal of the American
Statistical Association, 90, 54-63.
Rao, J.N.K. (1994).
Estimating totals and distribution functions using auxiliary information at the
estimation stage. Journal of Official Statistics, 10, 153-165.
Renssen, R.H. (1998). Utilisation de méthodes d'appariement statistique
dans l'estimation de calage. Techniques
d'enquête, 24, 2,
185-199.
Renssen, R.H., et
Nieuwenbroek, N.J. (1997). Aligning estimates for common variables in two or
more sample surveys. Journal of the American Statistical Association, 92, 368-375.
Rust, K.F., et Rao,
J.N.K. (1996). Variance estimation for complex surveys using replication
techniques. Statistical Methods in Medical Research, 5, 283-310.
Särndal, C.-E., Swensson, B. et Wretman, J.H. (1992). Model-Assisted Survey Sampling, New York : Springer.
Smith, P. (2009). Survey
harmonization in official household surveys in the United Kingdom. Proceedings of the ISI World Statistical Congresses, Dublin.
Thomas, N., Raghunathan,
T.E., Schenker, N., Katzoff, M.J. et Johnson, C.L. (2006). Une évaluation des
méthodes d'échantillonnage matriciel à l'aide de données provenant de la
« National Health and Nutrition Examination Survey ». Techniques
d'enquête, 32, 2, 241-257.
Wolter, K.M. (1979). Composite estimation in finite populations. Journal of the American Statistical Association, 74, 604-613.
Wu, C. (2004). Combining
information from multiple surveys through the empirical likelihood method. Canadian
Journal of Statistics, 32, 15-26.
Précédent