6. Conclusion
Jae-kwang Kim, Seunghwan Park et Seo-young Kim
Précédent
Le présent article décrit le traitement
d'un problème d'estimation sur petits domaines comme un problème de prédiction d'un
modèle d'erreur de mesure où les covariables,
qui sont les estimations directes pour les petits domaines, sont sujettes à des
erreurs d'échantillonnage. Dans notre approche du modèle d'erreur de mesure, les
erreurs d'échantillonnage des estimateurs directs sont traitées comme des erreurs
de mesure et le modèle d'erreur structurel peut être utilisé pour relier les autres
estimations auxiliaires aux estimateurs directs. Le modèle proposé est en fait
l'opposé du modèle d'Ybarra et Lohr (2008), qui
traitent l'estimateur direct comme une variable dépendante dans le
modèle de régression et les estimations auxiliaires des erreurs non dues à
l'échantillonnage comme des erreurs de mesure.
Dans notre approche, chaque estimation
auxiliaire est traitée comme une variable dépendante dans le modèle de
régression en utilisant l'estimation directe en tant que covariable et l'erreur
d'échantillonnage de l'estimateur direct en tant qu'erreur de mesure. La
variance de l'erreur de mesure est facile à estimer, parce qu'elle est essentiellement
la variance d'échantillonnage de l'estimation directe. L'approche du modèle
d'erreur de mesure est également très utile quand il existe plusieurs sources d'information
auxiliaire au niveau des domaines. Contrairement à l'approche bayésienne, l'estimateur
résultant ne s'appuie pas sur des hypothèses de modélisation paramétrique au
sujet du modèle d'erreur structurel et reste optimal au sens de la minimisation
des erreurs quadratiques moyennes parmi la classe d'estimateurs sans biais qui
sont linéaires dans les données disponibles.
Dans l'exemple de l'application à
l'enquête sur la population active de la Corée, deux estimations sur
échantillon et l'information provenant du recensement sont utilisées pour calculer
les estimations MCG des paramètres de petit domaine et les deux estimations sur
échantillon sont corrélées en raison du plan d'échantillonnage à deux phases. Nous
avons utilisé simplement des modèles de régression linéaire comme modèles de
lien, principalement par souci de simplicité des calculs. Au lieu du modèle
linéaire, on pourrait envisager un modèle linéaire généralisé afin d'améliorer
le pouvoir de prédiction du modèle. Une telle extension ferait intervenir la théorie
des modèles d'erreur de mesure non linéaires.
Une étude plus approfondie de cette extension sera le sujet de futurs travaux
de recherche.
Remerciements
Nous remercions un examinateur anonyme et
le rédacteur associé de leurs commentaires constructifs. Les travaux de
recherche du premier auteur ont été financés partiellement par l'entente de
coopération NSF (MMS-121339).
Annexe
Échantillonnage à deux phases inverse
En échantillonnage à deux phases classique,
l'échantillon de deuxième phase
est un sous-ensemble de
l'échantillon de première phase
Nous considérons un autre
type de plan d'échantillonnage possédant la structure inverse du plan
d'échantillonnage à deux phases. Dans le plan d'échantillonnage à deux phases
inverse, les étapes d'échantillonnage sont les suivantes :
- Étape 1 À partir de la population finie, nous
sélectionnons l'échantillon de première phase
de taille
- Étape 2 Dans l'échantillon de deuxième phase, nous
sélectionnons
à partir de
de taille
L'échantillon final
est constitué de
et
C'est-à-dire que
et
L'échantillonnage à deux phases
inverse est utilisé lorsqu'on augmente l'échantillon par une procédure d'échantillonnage
additionnelle.
Pour discuter de l'estimation des
paramètres sous échantillonnage à deux phases inverse, posons que
est la probabilité d'inclusion
d'ordre un pour
Soit
la probabilité d'inclusion d'ordre
un conditionnelle pour
sachant
Pour calculer la probabilité d'inclusion
pour
nous avons
Donc, nous pouvons utiliser
pour calculer l'estimateur d'Horvitz-Thompson de la forme
Notons que, au lieu de (A.1), nous
pouvons considérer la classe d'estimateurs suivante :
Puisque
et
sont tous deux sans biais pour
est également sans biais quel
que soit le choix de
Un choix raisonnable de
est
Sous échantillonnage aléatoire simple
dans les deux plans, les deux estimateurs sont égaux à
où
est la moyenne d'échantillon de
dans
En écrivant
et
nous obtenons
où
En utilisant
où
nous obtenons, pour
En outre,
Si l'égalité
n'est pas vérifiée, alors (A.5) et
(A.6) ne sont pas vérifiées.
Dans l'application à l'enquête sur la
population active de la Corée à la section 5, puisque
et
mesurent le même item, nous
pouvons supposer que
et la matrice de variance-covariance
des erreurs d'échantillonnage peut être lissée sous la forme
Bibliographie
Battese, G.E., Harter, R.M. et Fuller, W.A. (1988). An error-components model for prediction of county
crop areas using survey and satellite data. Journal of the American
Statistical Association, 83, 28-36.
Carroll, R.J., Rupert, D.
et Stefanski, L.A. (1995). Measurement error in nonlinear models. New
York : Chapman & Hall.
Fay, R.E., et Herriot,
R.A. (1979). Estimation of income from small places: An application of
James-Stein procedures to census data. Journal of the American Statistical
Association, 74, 269-277.
Fuller, W.A. (1987). Measurement error models. New York : John Wiley & Sons, Inc.
Fuller, W.A. (1991).
Small area estimation as a measurement error problem. Dans Economic Models,
Estimation, and Socioeconomic Systems: Essays in Honor of Karl A. Fox, (Éds.,
Tij K. Kaul et Jati K. Sengupta), Elsevier Science
Publishers, 333-352.
Fuller, W.A. (2009). Sampling Statistics. John Wiley & Sons, Inc., Hoboken, NJ.
Jiang, J., Lahiri, P. et Wan, S. (2002). A unified jackknife theory for empirical best prediction with
M-estimation. Annals of Statistics, 30, 1782-1810.
Kackar, R.N., et
Harville, D.A. (1984). Approximations for standard errors of estimators of
fixed and random effects in mixed linear models. Journal of the American
Statistical Association, 79, 853-862.
Kim, J.K., et Rao, J.N.K.
(2012). Combining data from two independent surveys: A model-assisted approach. Biometrika, 99, 85-100.
Lohr, S.L., et Prasad,
N.G.N. (2003). Small area estimation with auxiliary survey data. The
Canadian Journal of Statistics, 31, 383-396.
Manzi, G., Spiegelhalter,
D.J., Turner, R.M., Flowers, J. et Thompson, S.G. (2011). Modelling bias in
combining small area prevalence estimates from multiple surveys. Journal of
the Royal Statistical Society A, 174, 31-50.
Merkouris, T. (2010).
Combining information from multiple surveys by using regression for efficient
small domain estimation. Journal of the Royal Statistical Society B, 68,
509-521.
Pfeffermann, D. (2002).
Small area estimation - New developments and directions. Revue Internationale de
Statistique, 70, 125-144.
Quenouille, M.H. (1956). Notes on bias in estimation. Biometrika, 43, 353-360.
Raghunathan, T.E., Xie, D., Schenker, N., Parsons, V.I., Davis, W.W.,
Dodd, K.W. et Feuer, E.J. (2007). Combining
information from two surveys to estimate county-level prevalence rates of
cancer risk factors and screening. Journal of the American Statistical
Association, 102, 474-486.
Rao, J.N.K. (2003). Small Area Estimation. John Wiley & Sons, Inc., Hoboken, NJ.
Schafer, D.W. (2001). Semiparametric
maximum likelihood for measurement error model regression. Biometrics, 57, 53-61.
Ybarra, L.M.R., et Lohr,
S.L. (2008). Small area estimation when auxiliary information is measured with
error. Biometrika, 95, 919-931.
Précédent