Recherche par

6. Conclusion

Jae-kwang Kim, Seunghwan Park et Seo-young Kim

Le présent article décrit le traitement d'un problème d'estimation sur petits domaines comme un problème de prédiction d'un modèle d'erreur de mesure où les covariables, qui sont les estimations directes pour les petits domaines, sont sujettes à des erreurs d'échantillonnage. Dans notre approche du modèle d'erreur de mesure, les erreurs d'échantillonnage des estimateurs directs sont traitées comme des erreurs de mesure et le modèle d'erreur structurel peut être utilisé pour relier les autres estimations auxiliaires aux estimateurs directs. Le modèle proposé est en fait l'opposé du modèle d'Ybarra et Lohr (2008), qui traitent l'estimateur direct comme une variable dépendante dans le modèle de régression et les estimations auxiliaires des erreurs non dues à l'échantillonnage comme des erreurs de mesure.

Dans notre approche, chaque estimation auxiliaire est traitée comme une variable dépendante dans le modèle de régression en utilisant l'estimation directe en tant que covariable et l'erreur d'échantillonnage de l'estimateur direct en tant qu'erreur de mesure. La variance de l'erreur de mesure est facile à estimer, parce qu'elle est essentiellement la variance d'échantillonnage de l'estimation directe. L'approche du modèle d'erreur de mesure est également très utile quand il existe plusieurs sources d'information auxiliaire au niveau des domaines. Contrairement à l'approche bayésienne, l'estimateur résultant ne s'appuie pas sur des hypothèses de modélisation paramétrique au sujet du modèle d'erreur structurel et reste optimal au sens de la minimisation des erreurs quadratiques moyennes parmi la classe d'estimateurs sans biais qui sont linéaires dans les données disponibles.

Dans l'exemple de l'application à l'enquête sur la population active de la Corée, deux estimations sur échantillon et l'information provenant du recensement sont utilisées pour calculer les estimations MCG des paramètres de petit domaine et les deux estimations sur échantillon sont corrélées en raison du plan d'échantillonnage à deux phases. Nous avons utilisé simplement des modèles de régression linéaire comme modèles de lien, principalement par souci de simplicité des calculs. Au lieu du modèle linéaire, on pourrait envisager un modèle linéaire généralisé afin d'améliorer le pouvoir de prédiction du modèle. Une telle extension ferait intervenir la théorie des modèles d'erreur de mesure non linéaires. Une étude plus approfondie de cette extension sera le sujet de futurs travaux de recherche.

Remerciements

Nous remercions un examinateur anonyme et le rédacteur associé de leurs commentaires constructifs. Les travaux de recherche du premier auteur ont été financés partiellement par l'entente de coopération NSF (MMS-121339).

Annexe

Échantillonnage à deux phases inverse

En échantillonnage à deux phases classique, l'échantillon de deuxième phase $(A_{2})$ est un sous-ensemble de l'échantillon de première phase $(A_{1}) .$ Nous considérons un autre type de plan d'échantillonnage possédant la structure inverse du plan d'échantillonnage à deux phases. Dans le plan d'échantillonnage à deux phases inverse, les étapes d'échantillonnage sont les suivantes :

Étape 1 À partir de la population finie, nous sélectionnons l'échantillon de première phase $A_{1}$ de taille $n_{1} .$
Étape 2 Dans l'échantillon de deuxième phase, nous sélectionnons $A_{2}$ à partir de $U - A_{1}$ de taille $n_{2} .$ L'échantillon final $A$ est constitué de $A_{1}$ et $A_{2} .$ C'est-à-dire que $A = A_{1} \cup A_{2}$ et $| A | = n = n_{1} + n_{2} .$

L'échantillonnage à deux phases inverse est utilisé lorsqu'on augmente l'échantillon par une procédure d'échantillonnage additionnelle.

Pour discuter de l'estimation des paramètres sous échantillonnage à deux phases inverse, posons que $π_{1 i} = Pr (i \in A_{1})$ est la probabilité d'inclusion d'ordre un pour $A_{1} .$ Soit $π_{2 i | 1} = Pr (i \in A_{2} | A_{1}^{c})$ la probabilité d'inclusion d'ordre un conditionnelle pour $A_{2}$ sachant $A_{1}^{c} = U - A_{1} .$ Pour calculer la probabilité d'inclusion pour $A,$ nous avons

$Pr (i \in A) = Pr (i \in A_{1}) + Pr (i \in A_{2} | A_{1}^{c}) Pr (i \in A_{1}^{c}) .$

Donc, nous pouvons utiliser $π_{i} = π_{1 i} + (1 - π_{1 i}) π_{2 i | 1}$ pour calculer l'estimateur d'Horvitz-Thompson de la forme

${\hat{Y}}_{r, HT} = \sum_{i \in A} \frac{1}{π_{i}} y_{i} . (A .1)$

Notons que, au lieu de (A.1), nous pouvons considérer la classe d'estimateurs suivante :

${\hat{Y}}_{w} = W \sum_{i \in A_{1}} \frac{1}{π_{1 i}} y_{i} + (1 - W) \sum_{i \in A_{2}} \frac{1}{π_{2 i | 1} (1 - π_{1 i})} y_{i} : = W {\hat{Y}}_{1} + (1 - W) {\hat{Y}}_{2} . (A .2)$

Puisque ${\hat{Y}}_{1}$ et ${\hat{Y}}_{2}$ sont tous deux sans biais pour $Y,$ ${\hat{Y}}_{w}$ est également sans biais quel que soit le choix de $W .$ Un choix raisonnable de $W$ est $W = n_{1} / n .$

Sous échantillonnage aléatoire simple dans les deux plans, les deux estimateurs sont égaux à $\hat{Y} = N {\bar{y}}_{n},$ où ${\bar{y}}_{n}$ est la moyenne d'échantillon de $y$ dans $A .$ En écrivant ${\bar{y}}_{1} = n_{1}^{- 1} \sum_{i \in A_{1}} y_{i}$ et ${\bar{y}}_{2} = \sum_{i \in A_{2}} y_{i} / n_{2},$ nous obtenons

${\bar{y}}_{n} = W {\bar{y}}_{1} + (1 - W) {\bar{y}}_{2} (A .3)$

où $W = n_{1} / n .$ En utilisant

$\begin{array}{l} \begin{array}{l} V ({\bar{y}}_{1}) & = & (\frac{1}{n_{1}} - \frac{1}{N}) S_{y}^{2} (A .4) \\ V ({\bar{y}}_{2}) & = & (\frac{1}{n_{2}} - \frac{1}{N}) S_{y}^{2} \\ Cov ({\bar{y}}_{1}, {\bar{y}}_{2}) = & Cov ({\bar{y}}_{1}, {\bar{y}}_{1}^{c}) & = & - \frac{n_{1}}{N - n_{1}} (\frac{1}{n_{1}} - \frac{1}{N}) S_{y}^{2} = - \frac{1}{N} S_{y}^{2}, \end{array} \end{array}$

où ${\bar{y}}_{1}^{c} = \sum_{i \in A_{1}^{c}} y_{i} / (N - n_{1}),$ nous obtenons, pour $W = n_{1} / n,$

$V ({\bar{y}}_{n}) = (\frac{1}{n} - \frac{1}{N}) S_{y}^{2} . (A .5)$

En outre,

$Cov ({\bar{y}}_{1}, {\bar{y}}_{n}) = Cov [{\bar{y}}_{1}, W {\bar{y}}_{1} + (1 - W) {\bar{y}}_{2}] = (\frac{1}{n} - \frac{1}{N}) S_{y}^{2} . (A .6)$

Si l'égalité $W = n_{1} / n$ n'est pas vérifiée, alors (A.5) et (A.6) ne sont pas vérifiées.

Dans l'application à l'enquête sur la population active de la Corée à la section 5, puisque $x$ et $y$ mesurent le même item, nous pouvons supposer que $S_{x}^{2} = S_{y}^{2} = S_{x y}$ et la matrice de variance-covariance des erreurs d'échantillonnage peut être lissée sous la forme

$V (a_{h}, b_{h}) = (\begin{matrix} n_{1}^{- 1} & n^{- 1} \\ n^{- 1} & n^{- 1} \end{matrix}) S_{y}^{2} .$

Bibliographie

Battese, G.E., Harter, R.M. et Fuller, W.A. (1988). An error-components model for prediction of county crop areas using survey and satellite data. Journal of the American Statistical Association, 83, 28-36.

Carroll, R.J., Rupert, D. et Stefanski, L.A. (1995). Measurement error in nonlinear models. New York : Chapman & Hall.

Fay, R.E., et Herriot, R.A. (1979). Estimation of income from small places: An application of James-Stein procedures to census data. Journal of the American Statistical Association, 74, 269-277.

Fuller, W.A. (1987). Measurement error models. New York : John Wiley & Sons, Inc.

Fuller, W.A. (1991). Small area estimation as a measurement error problem. Dans Economic Models, Estimation, and Socioeconomic Systems: Essays in Honor of Karl A. Fox, (Éds., Tij K. Kaul et Jati K. Sengupta), Elsevier Science Publishers, 333-352.

Fuller, W.A. (2009). Sampling Statistics. John Wiley & Sons, Inc., Hoboken, NJ.

Jiang, J., Lahiri, P. et Wan, S. (2002). A unified jackknife theory for empirical best prediction with M-estimation. Annals of Statistics, 30, 1782-1810.

Kackar, R.N., et Harville, D.A. (1984). Approximations for standard errors of estimators of fixed and random effects in mixed linear models. Journal of the American Statistical Association, 79, 853-862.

Kim, J.K., et Rao, J.N.K. (2012). Combining data from two independent surveys: A model-assisted approach. Biometrika, 99, 85-100.

Lohr, S.L., et Prasad, N.G.N. (2003). Small area estimation with auxiliary survey data. The Canadian Journal of Statistics, 31, 383-396.

Manzi, G., Spiegelhalter, D.J., Turner, R.M., Flowers, J. et Thompson, S.G. (2011). Modelling bias in combining small area prevalence estimates from multiple surveys. Journal of the Royal Statistical Society A, 174, 31-50.

Merkouris, T. (2010). Combining information from multiple surveys by using regression for efficient small domain estimation. Journal of the Royal Statistical Society B, 68, 509-521.

Pfeffermann, D. (2002). Small area estimation - New developments and directions. Revue Internationale de Statistique, 70, 125-144.

Quenouille, M.H. (1956). Notes on bias in estimation. Biometrika, 43, 353-360.

Raghunathan, T.E., Xie, D., Schenker, N., Parsons, V.I., Davis, W.W., Dodd, K.W. et Feuer, E.J. (2007). Combining information from two surveys to estimate county-level prevalence rates of cancer risk factors and screening. Journal of the American Statistical Association, 102, 474-486.

Rao, J.N.K. (2003). Small Area Estimation. John Wiley & Sons, Inc., Hoboken, NJ.

Schafer, D.W. (2001). Semiparametric maximum likelihood for measurement error model regression. Biometrics, 57, 53-61.

Ybarra, L.M.R., et Lohr, S.L. (2008). Small area estimation when auxiliary information is measured with error. Biometrika, 95, 919-931.

Date de modification :: 2015-11-27

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête