Inférence bayésienne prédictive sur une proportion sous un modèle double pour petits domaines avec corrélations hétérogènes
Section 4. Conclusion
Afin d’ajouter un degré de flexibilité
à nos analyses de données, nous avons étendu un modèle double homogène, décrit
dans Nandram (2015), à un modèle double
hétérogène. Ces modèles contiennent des paramètres faiblement identifiés qui posent
de sérieux problèmes de calcul. Par conséquent, nous avons fait deux autres
ajouts. Premièrement, nous avons introduit
une contrainte unimodale sur les distributions bêta a priori.
Deuxièmement, nous avons utilisé un échantillonneur de Gibbs par blocs pour
effectuer les calculs. Pour comparer les modèles, nous avons procédé à une
inférence bayésienne prédictive. À titre d’exemple, nous avons utilisé des
données provenant de la TIMSS, une étude de la performance en mathématique des
élèves américains de troisième année. En outre, nous avons effectué une étude
en simulation pour comparer les deux modèles doubles.
Il
est important de se servir du modèle hétérogène pour modéliser le plan
d’échantillonnage double, car dans de nombreuses applications, les corrélations
intragrappe peuvent varier d’un domaine à l’autre, ce qui rend ce modèle plus
approprié que le modèle double homogène. En effet, à l’aide d’un exemple et
d’une étude en simulation avec application de plusieurs critères diagnostiques,
nous avons montré qu’il convient de préférer le modèle double hétérogène au
modèle double homogène quand les corrélations varient considérablement.
Nos
travaux peuvent s’étendre afin de prendre en compte des données binaires
multivariées. Cela peut se concevoir comme un problème de groupement de données
provenant de distributions multinomiales pour faire des inférences sur des
proportions de la population finie. Par exemple, dans le cas de la TIMSS, nous
pouvons utiliser les notes de mathématique et de science en tant que réponses
binaires bivariées (corrélation). Nous pouvons alors élaborer un modèle
hiérarchique bayésien pour les réponses multinomiales et une distribution de
Dirichlet a priori pour modéliser les probabilités dans les cellules. Dans
le cadre de cette étude, nous pouvons nous attaquer à
deux questions. D’abord, nous pouvons examiner dans quelle mesure la prédiction
sera améliorée si l’on utilise les données multivariées. Nous pouvons également
étudier dans quelle mesure la précision de l’inférence augmentera si l’on
privilégie un modèle avec corrélations intragrappe hétérogènes plutôt qu’un
modèle avec corrélation homogène en ce qui a trait aux données multivariées.
Remerciements
Les auteurs remercient les deux
examinateurs pour leur lecture attentive du manuscrit et leurs suggestions.
Leurs travaux de recherche ont bénéficié du soutien financier du Basic Science Research Program par
l’entremise de la National Research
Foundation of Korea (NRF) financée par le ministère de l’Éducation
(NRF-2014R1A1A2058954). Les travaux ont également été financés par une bourse
de la Simons
Foundation (#353953, Balgobin
Nandram).
Annexe A
Preuves des formules (2.12) et (2.13)
Il est facile de montrer que
Donc,
ce qui prouve (2.12).
De même, il est facile de montrer que
Donc,
ce
qui prouve (2.13).
Annexe B
Calculs avec contraintes d’unimodalité
Il est bien connu qu’une densité de
probabilité bêta de paramètres
et
est unimodale si
et
Cela peut s’établir
facilement en faisant appel au calcul infinitésimal. Dans notre cas,
Donc, nous avons deux
inégalités,
et
des calculs algébriques simples donnent
Ensuite, décrivons brièvement la façon
d’appliquer ces contraintes aux calculs dans le modèle double avec corrélations
hétérogènes. Rappelons la distribution marginale conditionnelle a posteriori
de
où
sont les poids et
sont les racines du polynôme de
Legendre. Ici, nous utilisons la méthode à grille univariée pour échantillonner
Donc, nous divisons l’intervalle
la première contrainte, en G1 sous-intervalles
Pour un nombre aléatoire uniforme,
provenant de toute grille, disons,
nous calculons la hauteur, c’est-à-dire la
valeur de la fonction de densité marginale conditionnelle a posteriori de
sous la forme
où
sont les poids et
les racines du polynôme de Legendre sur
l’intervalle
la deuxième contrainte. De même, nous pouvons
appliquer le critère d’unimodalité à l’échantillon
Bibliographie
Brier, S.S. (1980).
Analysis of contingency tables under cluster sampling. Biometrika, 67, 591-595.
Caslyn, C., Gonzales, P.
et Frase, M. (1999). Highlights from TIMSS. National Center for Education
Statistics, Washington, DC.
Damien, P., Laud, P.W. et
Smith, A.F.M. (1997). Bayesian estimation of unimodal distributions. Communications in Statistics, 26(2), 429-440.
Foy, P., Rust, K. et
Schleicher, A. (1996). Sample design. Dans TIMSS Technical Report, Volume I:
Design and Development, (Éds.,
M.O. Martin et D.L. Kelly), Chestnut Hill, MA: Boston College.
Fuller, W.A., et Battese,
G.E. (1973). Transformations for estimation of linear models with nested-error structure. Journal of the American Statistical Association, 68, 626-632.
Ghosh, M., et Lahiri, P.
(1988). Bayes and empirical Bayes analysis in multistage sampling. Dans Statistical Decision Theory and Related
Topics IV, (Éds., S.S. Gupta
et J.O. Berger), New York: Springer, Vol. 1, 195-212.
Molina, I., Nandram, B. et Rao, J.N.K. (2014). Small area estimation of general parameters with application
to poverty indicators: A hierarchical Bayes approach. Annals of Applied
Statistics, 8(2), 852-885.
Nandram, B. (1998). A
Bayesian analysis of the three-stage hierarchical multinomial model. Journal
of Statistical Computation and Simulation, 61, 97-126.
Nandram, B. (2015).
Bayesian predictive inference of a proportion under a two-fold small area model. Journal of Official Statistics (accepté).
Nandram, B., et Sedransk,
J. (1993). Bayesian predictive inference for a finite population proportion:
Two-stage cluster sampling. Journal of the Royal Statistical Society, Series
B, 55, 399-408.
Nandram, B., Bhatta, D.,
Sedransk, J. et Bhadra, B. (2013). A Bayesian test of independence in a two-way
contingency table using surrogate sampling. Journal of Statistical Planning
and Inference, 143, 1392-1408.
Ntzoufras, I. (2009). Bayesian Modeling Using WinBUGS. New Jersey: Wiley, Hoboken.
Rao, J.N.K., et Molina,
I. (2015). Small Area Estimation. New York: John Wiley & Sons, Inc.
Rao, J.N.K., et Scott,
A.J. (1981). The analysis of categorical data from complex sample surveys:
Chi-squared tests for goodness of fit and independence in two-way tables. Journal of the American Statistical Association, 76, 221-230.
Rao, J.N.K., et Scott,
A.J. (1984). On chi-squared tests for multi-way tables with cell proportions estimated
from survey data. Annals of Statistics, 12, 46-60.
Ritter, C., et Tanner, M.A.
(1992). Facilitating the Gibbs sampler: The Gibbs stopper and the Griddy Gibbs sampler. Journal of the American Statistical Association, 87, 861-868.
Scott, A., et Smith,
T.M.F. (1969). Estimation in multi-stage surveys. Journal of the American
Statistical Association, 101,
1387-1397.
Stukel, D.M., et Rao,
J.N.K. (1997). Estimation of regression models with nested error regression structure
and unequal variances under two and three stage cluster sampling. Statistics
& Probability Letters, 35,
401-407.
Stukel, D.M., et Rao,
J.N.K. (1999). On small-area estimation under two-fold nested error regression models. Journal of Statistical Planning and Inference, 78, 131-147.
Toto, M.C.S., et Nandram,
B. (2010). A Bayesian predictive inference for small area means incorporating covariates
and sampling weights. Journal of Statistical Planning and Inference, 140, 2963-2979.