8. Conclusions
Andrés Gutiérrez, Leonardo Trujillo et
Pedro Luis do Nascimento Silva
Précédent
Cet article a
examiné un problème fréquent d’applications de l’échantillonnage. Au moyen des
modèles en chaîne de superpopulation de Markov, une nouvelle méthodologie a été
proposée, entraînant des estimateurs à peu près sans biais des flux bruts à
différents moments pour le cas particulier des données provenant d’enquêtes
complexes avec des poids d’échantillonnage inégaux. Les applications possibles
de la méthodologie dans le présent article sont larges, notamment dans le cas
des bureaux de statistique nationaux envisageant des enquêtes complexes. Les
enquêtes sur la qualité de vie ou sur la population active s’intéressent
habituellement à l’estimation des flux bruts. Toutefois, les extensions
possibles de cette méthodologie pourraient être appliquées au secteur de la
politique publique pour les évaluations d’impacts ayant une classification des
répondants avant et après une intervention.
De plus, nous
présentons une solution à un problème général, comme la non-réponse non ignorable. Des modèles où la non-réponse n’est pas différenciée
pendant différentes périodes ou selon l’état de classification ont été
envisagés. Cependant, dans certaines applications pratiques, il est possible
que ce ne soit pas le cas.
L’approche de
cet article considère que les poids déterminés par le plan d’échantillonnage
pour les unités entre les deux périodes sont les mêmes. Dans le cadre de
travaux plus poussés, on s’efforcera de considérer différents poids entre les
vagues en envisageant une classification d’échantillonnage à deux phases ou une
approche de calage sur marges à deux degrés. En effet, il serait intéressant de
comparer le rendement de la méthodologie donné dans cet article à la méthode du
calage sur marges. On pourrait considérer l’approche d’Ash (2005) et de Sikkel,
Hox et de Leeuw (2008) pour calibrer en deux périodes, ainsi que l’approche de
Särndal et Lundström (2005) pour traiter la non-réponse.
Des travaux
plus poussés chercheront à élargir cette méthodologie pour des modèles en
chaîne de Markov plus complexes afin de considérer différents poids
d’échantillonnage. Une nouvelle définition des paramètres du modèle sera
nécessaire. De plus, cette méthodologie pourrait être appliquée au cas des flux
bruts dans plus de deux périodes lorsque les erreurs de classification sont
prises en compte.
Remerciements
Les auteurs
souhaitent remercier deux réviseurs anonymes de leurs commentaires constructifs
au sujet d’une version précédente de l’article, qui ont donné lieu à la
présente version améliorée. De plus, le premier auteur tient à remercier
l’Universidad Santo Tomas de son soutien financier pendant ses études
doctorales. Cet article est le fruit de la thèse de doctorat d’Andrés Gutiérrez
de l’Universidad Nacional de Colombia, sous la supervision des deux autres
auteurs.
Annexe
A.1 Preuves mathématiques des résultats de
l’article
Dans cette
section, les preuves mathématiques de certains des résultats les plus
importants de l’article sont incluses.
Preuve du résultat 4.1
Preuve. En prenant le logarithme de la fonction de
vraisemblance, et en le définissant comme
, il s’ensuit que
Notons que
,
,
et
Après avoir
pris en compte la somme de la population totale, le résultat est finalement
obtenu.
Preuve du résultat 4.2
Preuve. En commençant par la définition de la
pseudo-vraisemblance et en tenant compte des hypothèses du modèle, il s’ensuit
que
Le score pour
peut être
défini comme suit :
Alors, pour ce paramètre, les équations de
pseudo-vraisemblance sont données par
Pour la solution de
, on constate que
Au moyen d’un processus analogue pour les paramètres
restants, le résultat est obtenu.
Preuve du résultat 4.3
Preuve. D’abord, il faut savoir que l’estimation
pour ces paramètres est assujettie aux restrictions
et
. Alors, le processus doit tenir compte de
l’utilisation des multiplicateurs de Lagrange. La fonction à maximiser, y
compris ces restrictions, peut être exprimée comme suit :
Alors, le score correspondant pour
est défini par
La dernière étape
tient compte des restrictions, puisque
. Alors, pour ce paramètre, les équations de
pseudo-vraisemblance sont données par
Alors, après un peu d’algèbre, il s’ensuit que
Par ailleurs, en utilisant la restriction
et en faisant
la somme par rapport à
, il s’ensuit que
Alors, nous obtenons enfin que
Par ailleurs,
afin de trouver l’estimateur du maximum de pseudo-vraisemblance de
, le score pour
est défini
comme suit :
Par conséquent,
En utilisant la restriction
et en faisant
la somme par rapport à
des deux
côtés, il s’ensuit que
Alors, il s’ensuit que
Maintenant,
soulignons qu’il est impossible de résoudre la dernière expression pour
de façon à ce
que la solution soit une expression fermée. Il en va de même en ce qui concerne
l’expression pour
. Cependant, il est possible d’utiliser une approche
itérative, qui s’est avérée avoir une convergence rapide des problèmes
d’estimation du maximum de vraisemblance pour les tableaux de contingence.
Cette approche présume que l’estimateur du maximum de pseudo-vraisemblance peut
se trouver après une itération conjointe des expressions suivantes à l’étape
, pour
,
Cette
procédure itérative particulière a été utilisée au départ pour la formulation
de modèles de vraisemblance imbriqués de Hocking et Oxspring (1971). Toutefois,
elle semble également avoir été mise en œuvre par Blumenthal (1968), Reinfurt
(1970), Chen et Fienberg (1974), Fienberg et Stasny (1983), Stasny (1987),
Stasny (1988) et d’autres.
Preuve du résultat 5.5
Preuve. L’estimateur non linéaire
, peut être exprimé comme une fonction des totaux
estimés
et
(où
). Alors,
Enfin, l’approximation du premier degré de Taylor au
point
est donnée par
où
et
Preuve du résultat 5.8
Preuve. Pour calculer la valeur prévue
conformément au plan d’échantillonnage, il s’ensuit que
En suivant un processus semblable pour les
estimateurs restants, on obtient le résultat. Cette preuve découle de
l’application de la méthode de pseudo-vraisemblance qui induit les estimations
sans biais pour les paramètres de population dans le modèle comme le prouve le
corollaire 1 de Binder (1983, p. 291).
Preuve du résultat 5.10
Preuve. En supposant
, en remplaçant les expressions pour
et en faisant
quelques simplifications algébriques, on peut exprimer la variance
approximative comme suit :
Initialement, nous avons
Alors, sachant que
et après un
peu d’algèbre, il s’ensuit que
Après un processus analogue pour
et
, les autres expressions de la variance dans ce
résultat sont obtenues.
Preuve du résultat 5.12
Preuve. On obtient la preuve en suivant
l’expression (3.3) de Binder (1983) et en tenant compte de ce qui suit
De plus,
Preuve du résultat 5.16
Preuve.
Parce que
Alors, il est possible d’obtenir ce qui suit :
au moyen de la linéarisation de Taylor pour
. Les autres covariances sont obtenues de façon
semblable.
Bibliographie
Ash, S. (2005). Calibration weights for estimators of longitudinal data with an application to the National Long Term Care Survey. Proceedings of the Section on Survey Research Methods of the American Statistical Association. American Statistical Association: Alexandria, VA, 2694–2699.
Binder, D. (1983). On the variances of asymptotically
normal estimators from complex surveys. International
Statistical Review, 51, 279-292.
Blumenthal, S. (1968). Multinomial sampling with
partially categorized data. Journal of
the American Statistical Association, 63, 542-551.
Cassel, C.M., Särndal, C.E. et Wretman, J.H. (1976). Foundations of Inference in Survey Sampling.
New York: Wiley.
Chambers, R.L. et Skinner, C.J. (2003). Analysis of Survey Data. John Wiley and
Sons, Chichester: UK.
Chen, T. et
Fienberg, S.E. (1974). Two-dimensional contingency tables with both
completely and partially cross-classified data. Biometrics, 30, 629-642.
Clogg, C.C. et Eliason, S.R. (1987). Some common
problems in log-linear analysis. Sociological
Methods and Research, 16, 8-44.
Deville, J. et Särndal, C. (1992). Calibration
estimators in survey sampling. Journal of
the American Statistical Association, 87, 376-382.
Fienberg, S.E. et Stasny, E.A. (1983). L’estimation des flux bruts mensuels de l’activité
sur le marché du travail. Techniques
d’enquête, 9(1), 85-110.
Fuller, W.A.
(2009). Sampling Statistics. Wiley.
Gambino, J.G.
et Silva, P.L. (2009). Sampling and estimation in household surveys.
Dans D. Pfeffermann et C.R. Rao (Eds.), Handbook
of Statistics. Vol. 29A. Sample Surveys: Design, Methods and Applications (pp. 407-439). Amsterdam: Elsevier.
Gutiérrez, H.A. (2009). TeachingSampling: Sampling
designs and parameter estimation in finite population. R package version 2.0.1.
Hocking, R.R. et Oxspring, H.H. (1971). Maximun
likelihood estimation with incomplete multinomial data. Journal of the American Statistical Association, 66, 65-70.
IBGE (2007). Pesquisa
Mensal de Emprego. Vol. 23, 2nd edition.
Kalton, G. (2009). Designs for surveys over time. Dans
D. Pfeffermann and C.R. Rao (Eds.), Handbook
of Statistics. Vol. 29A. Sample Surveys: Design, Methods and Applications (pp. 89-108). Amsterdam: Elsevier.
Kim, J. K. et
Park, M. (2010). Calibration estimation in survey sampling. International Statistical Review, 78,
21-39.
Lohr, S.L. (1999). Sampling:
Design and Analysis. Pacific
Grove: Duxbury Press.
Lu, Y. et
Lohr, S. (2010). L’estimation des flux bruts dans les enquêtes à base de
sondage double. Techniques
d’enquête, 36(1), 13-24.
Lumley, T. (2010). Complex
Surveys: A Guide to Analysis using R. New York: Wiley.
Pessoa,
D.G.C. et Silva, P.L. (1998). Análise de
Dados Amostrais Complexos. São Paulo : Associação Brasileira
de Estatística.
Pfeffermann, D. (1993). The role of sampling weights
when modeling survey data. International
Statistical Review, 61, 317-337.
R Development Core Team (2012). R: A language and
environment for statistical computing. R
Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0.
Rao, J.N.K. et Thomas, D.R. (1988). The analysis of
cross-classified data from complex surveys. Sociological
Methodology, 18, 213-269.
Reinfurt, D.W. (1970). The analyis of categorical data
with supplemented margins including applications to mixed models. Thèse de
doctorat non publiée. Department of Biostatistics. University of North
Carolina.
Särndal, C.E. (2011). The 2010 Morris Hansen lecture:
Dealing with survey nonresponse in data collection. Journal of Official Statistics, 27, 1-21.
Särndal, C.E. et Lundström, S. (2005). Estimation in Surveys with Nonresponse. John Wiley and Sons, Chichester: UK.
Särndal, C.E. et Lundström, S. (2010). Plan d’estimation : détermination de vecteurs
auxiliaires en vue de réduire le biais de non-réponse. Techniques d’enquête, 36(2), 141-156.
Sikkel, D.,
Hox, J. et de Leeuw, E. (2008). Using auxiliary data for adjustment in
longitudinal research. Dans P. Lynn (Ed), Methodology
of longitudinal surveys. New York: Wiley. Une version antérieure est disponible au http://www.iser.essex.ac.uk/ulsc/mols2006/programme/data/papers/Sikkel.pdf
Skinner, C.J.
et Vallet, L.A. (2010). Fitting log-linear models to contingency tables
from surveys with complex sampling designs: An investigation of the
Clogg-Eliason approach. Sociological
Methods and Research, 39, 83-108.
Stasny, E.A. (1987). Some Markov-chain models for
nonresponse in estimating gross labor force flows. Journal of Official Statistics, 3, 359-373.
Stasny, E.A. (1988). Modeling nonignorable nonresponse
in categorical panel data with an example in estimating gross labor-flows. Journal of Business and Economic Statistics,
6, 207-219.
Précédent