Inférence bayésienne pour les données multinomiales issues de petits domaines et intégrant l’incertitude sur la restriction d’ordre
Section 2. Modèle multinomial hiérarchique de Dirichlet
Dans la
section qui suit, nous passons brièvement en revue le modèle multinominal de
Dirichlet et de ses extensions avec la restriction d’ordre. Pour étudier
l’association entre la densité minérale osseuse et l’indice de masse corporelle
(IMC) de plusieurs comtés américains, Nandram, Kim et Zhou (2019) ont fourni
une analyse claire du modèle général multinomial hiérarchique de Dirichlet et
de la méthodologie qu’ils ont adoptée pour l’estimation sur petits domaines.
Soit
correspondant à la fréquence par cellule, qui
renvoie aux nombres dans chaque catégorie
pour chaque domaine
sont les probabilités dans les cellules correspondantes,
et le nombre total pour chaque domaine
est
Le modèle général multinomial hiérarchique de Dirichlet est :
où les hyperparamètres
Ils
suggèrent la distribution a priori non informative, laquelle sera facile à paramétrer de nouveau. Sans aucune
donnée a priori, ils estiment
que
et
sont indépendants,
En guise d’interprétation des hyperparamètres,
est lié aux moyennes des cellules et
est lié à une taille d’échantillon a priori. Ce modèle comprend une
stratification et des hyperparamètres permettant de regrouper les données de
différentes strates.
Ce
modèle multinomial hiérarchique de Dirichlet est un point de départ pratique
pour l’estimation sur petits domaines. Pour des raisons de commodité, nous le
désignons par le modèle
pour les analyses à venir.
2.1 Modèle multinomial hiérarchique de Dirichlet
comportant des restrictions d’ordre
Chen et
Nandram (2019) intègrent la restriction d’ordre dans le modèle multinomial
hiérarchique bayésien de Dirichlet. Laissons
correspondre à la fréquence par cellule,
les probabilités de fréquence par cellule
correspondantes,
et supposons que la position modale de
est
Plus précisément, ils supposent
où
et supposent que la position
modale de
dans
est connue.
Dans un
deuxième temps, ils supposent
Puisque
devrait avoir la même restriction d’ordre que
qui est
et nous supposons que la position
modale
dans
est connue.
Distribution a posteriori
où
où
Dans
notre application de données sur l’IMC, il existe cinq catégories d’IMC. Nous
nous intéressons uniquement au niveau d’IMC normal et en surpoids. Nous
utilisons le modèle
qui vise à représenter le modèle comportant
des restrictions d’ordre, et sa position modale est la deuxième, qui correspond
à un poids normal. Le modèle
représente le modèle comportant des
restrictions d’ordre, et sa position modale est la troisième, ce qui correspond
à un surpoids.
et
sont le même modèle multinomial hiérarchique
de Dirichlet, mais comportant des restrictions d’ordre différentes.
La
densité a posteriori conjointe
de
ou
est la suivante :
où
est la constante de normalisation de
la distribution de Dirichlet,
est la constante de normalisation de
la distribution de Dirichlet tronquée,
Nandram
(1998) a montré la façon de générer des échantillons à partir du modèle
En fait, en utilisant l’échantillonneur de
Gibbs à grille, on peut le faire plus facilement que la méthode de Nandram (1998).
Chen et Nandram (2019) présentent des méthodes d’échantillonnage pour
et
comportant des restrictions d’ordre à partir
de la distribution conjointe a posteriori du modèle
et
comme dans l’annexe A.1 et
l’annexe A.2.
Gelfand,
Dey et Chang (1992) ont utilisé des distributions prédictives pour aborder les
questions d’adéquation et de sélection des modèles. Ils ont proposé l’ordonnée
prédictive conditionnelle (OPC) pour la détermination du modèle. L’OPC est
basée sur une validation croisée avec retrait d’un élément. L’OPC estime la probabilité
d’observer
dans le futur si, après avoir déjà observé
la somme de l’OPC logarithmique est un
estimateur de la vraisemblance marginale logarithmique. Le
« meilleur » modèle parmi les modèles concurrents présente la pseudo-vraisemblance
marginale logarithmique (PVML) le plus important.
Chen et
Nandram (2021) ont présenté une méthode pour calculer l’OPC et le PVML comme
critères de sélection de modèles bayésiens. Dans l’annexe A.3, nous avons
amélioré l’estimation en intégrant la restriction d’ordre
l’OPC estimée de
et
sont les suivants :
où
comporte la restriction d’ordre,
et
sont les échantillons a posteriori de la densité a posteriori conjointe.