Inférence bayésienne pour un modèle des composantes de la variance fondée sur la vraisemblance composite par paire à partir des données d’enquête
Section 2. Vraisemblance complète, vraisemblance par paire et mise en œuvre bayésienne
2.1 Modèle et formule
Comme à
la section 1, supposons que désigne la variable de réponse pour l’unité de
deuxième degré dans l’unité de premier degré pour et Nous utilisons la lettre minuscule pour représenter les valeurs réalisées de Supposons que désigne les données d’échantillon avec pour où T désigne la transposée.
Dans un
modèle à effets aléatoires plus général, nous pourrions supposer que, en
fonction des effets aléatoires pour les sont distribuées indépendamment comme
suit :
pour
où est une fonction de densité connue et est le vecteur de paramètres connexe. Ensuite,
nous modélisons les effets aléatoires en supposant que les sont indépendants et identiquement distribués
comme suit :
pour
où est une fonction de densité connue indexée par
le vecteur de paramètres
Soit le vecteur des paramètres du modèle d’intérêt.
Dans le cadre fréquentiste, la méthode du maximum de vraisemblance est
couramment utilisée pour faire des inférences au sujet de en maximisant la fonction de vraisemblance
où
Une
solution de rechange à la méthode de vraisemblance est l’approche fondée sur la
vraisemblance composite (Lindsay, 1988). Plus particulièrement, la méthode
fondée sur la vraisemblance par paire a souvent été employée. Soit la densité de déterminée au moyen de
Pour soit la densité conjointe pour les réponses
appariées déterminée au moyen de
Une fonction de vraisemblance par
paire marginale peut alors être formulée comme suit :
où et sont des poids qui peuvent être précisés par
l’utilisateur pour accroître l’efficacité ou faciliter certains aspects précis
de la formulation. Une discussion portant sur le choix des poids figure dans
Cox et Reid (2004), Lindsay, Yi et Sun (2011), Varin, Reid et Firth (2011), et Yi
(2017). Pour limiter notre attention à l’utilisation de vraisemblances par
paire marginales, conformément à l’approche de Rao, Verret et Hidiroglou, nous
examinons ici le cas avec et
Si nous
revenons au cas spécial du modèle (1.1), supposons que est connue et prenons qui est formé de et de Selon une approche bayésienne, il est
nécessaire de choisir une loi a priori pour Nous supposerons une loi a priori
dans laquelle et sont indépendantes, avec une loi uniforme
soutenant largement et une loi pour qui est presque uniforme dans un intervalle
qui est censé contenir le soutien de la fonction de vraisemblance complète pour
avec une forte probabilité. Gelman (2006)
présente un traitement rigoureux pour choisir une loi a priori de dans le modèle à effets aléatoires (1.1). Il
recommande d’utiliser une loi a priori uniforme pour pour des valeurs modérées à grandes de mais une loi a priori demi-Cauchy
pour de faibles valeurs de (voir, en particulier, les sections 3.2
et 5.2 de Gelman, 2006). La loi a priori demi-Cauchy est appuyée
sur et est donnée par :
où est un hyperparamètre d’échelle.
2.2 Vraisemblance composite par paire non ajustée
Prenons
encore une fois le modèle (1.1) et, en supposant que est connue, soit le vecteur des paramètres du modèle. Nous
voulons comparer le rendement de la loi a posteriori de en fonction de l’utilisation de la
vraisemblance complète (VC) ou de la vraisemblance par paire (VP), de même que
de la loi a posteriori de la vraisemblance par paire ajustée
décrite ci-dessous.
D’abord,
considérons une situation simple où l’on suppose également que est connue et que seule est inconnue. Soit la densité a priori de La densité a posteriori de est donc
où l’indice VC indique qu’elle repose
sur la vraisemblance complète. En revanche, nous considérons
où puis nous définissons
comme la densité a posteriori
« par paire » de Nous voulons comparer les variances de dérivées de et de démontrées dans le théorème suivant, dont les
calculs sont simples.
Théorème : Supposons que est
une loi a priori uniforme. Alors
- (a) est une densité normale avec une moyenne et une
variance
- (b) est une densité normale avec une moyenne et une
variance où
Le
théorème démontre que, lorsque est supérieure à 2, la variance dérivée de la
densité a posteriori « par paire » est inférieure à celle de la densité a posteriori
Cette constatation semble raisonnable, car la
vraisemblance par paire suppose dans les faits que toutes les paires
d’observations dans chaque grappe sont indépendantes. Cela
nous amène à nous pencher sur une version ajustée de qui sera examinée par la suite.
Dans le
cas où est également inconnue, on peut démontrer
qu’un type d’ajustement semblable est nécessaire. En supposant des lois a priori
uniformes indépendantes pour et il est simple de démontrer que
où représente le vecteur unitaire et désigne la matrice d’identité
Après
quelques calculs algébriques, on peut démontrer que la loi a posteriori
de la vraisemblance composite par paire (VP) est
où, avec
Il importe de souligner que est définie dans l’équation (2.7) par
En
supposant des lois a priori uniformes indépendantes pour et nous considérons la densité a posteriori
de avec éliminée par intégration. Pour évaluer les
précisions relatives de l’inférence bayésienne dans les deux cas, nous devons
utiliser des approximations en raison de la complexité des deux densités a posteriori.
Plus précisément, nous comparons la courbure de la log-densité a posteriori
et de la log-densité a posteriori par paire pour avec leurs modes. On peut démontrer que le
rapport entre le dernier et le premier est égal pour un grand à
ce qui laisse croire que la densité a posteriori
par paire non ajustée pour surestimerait la précision de l’estimation de
Ainsi,
pour et (ou le fait de fonder un logarithme du rapport de
vraisemblance approximatif pour l’inférence bayésienne directement sur la
vraisemblance composite par paire mènerait à des intervalles a posteriori
qui sont trop étroits.
Note :
À la section 3, le vecteur de paramètres correspond à (la variance étant remplacée par l’écart-type et une loi a priori demi-Cauchy
est utilisée pour Cependant, la comparaison de la densité a posteriori
complète et de la log-densité a posteriori par paire demeurera
semblable lorsque les transformations appropriées seront mises en application.
2.3 Ajustement de la courbure pour le logarithme du
rapport de vraisemblance par paire
Dans la
présente section, nous justifions l’ajustement de la courbure du logarithme du
rapport de vraisemblance par paire du point de vue de la théorie des fonctions
d’estimation, telle qu’elle est présentée, par exemple, par Jørgensen et
Knudsen (2004).
D’abord,
nous soulignons que si a une distribution normale -variée comportant un vecteur moyen et une matrice de variance-covariance le logarithme de la densité multivariée de prend la forme suivante :
L’expression dans l’équation (2.9)
sous forme de fonction de est à son maximum à et la courbure ou la matrice des dérivées
secondes (hessienne) est au maximum égal à Intuitivement, on peut s’attendre à ce que
cette correspondance entre la courbure de la log-densité au maximum et
l’inverse de la matrice de covariance soit vérifiée approximativement pour une
densité multivariée qui est presque normale.
Considérons
un modèle dans lequel la distribution de la variable d’observation dépend d’un paramètre vectoriel Soit une observation le logarithme du rapport de vraisemblance est
désigné où est la densité de Sous des conditions de régularité (par exemple
Lehmann, 1999, chapitre 7), l’EMV est calculée en résolvant le système
où désigne la fonction de score, le gradient de Le système (2.10) est une équation
d’estimation (vectorielle) sans biais et a une efficacité optimale, présentant
une matrice de variance-covariance asymptotique minimale (du point de vue de la
différence définie positive) parmi les solutions des systèmes d’équations
d’estimation sans biais. Dans les cas ordinaires (par exemple Lehmann,
1999, chapitre 7), la fonction de score satisfait à la deuxième identité de Bartlett (par exemple Lindsay,
1988) :
où Var désigne une matrice de
variance-covariance et représente un gradient. De plus,
asymptotiquement, au moyen d’une approximation par série de Taylor de nous avons :
Ainsi, l’inférence fondée sur la
vraisemblance (fréquentiste) standard permet d’estimer la variance-covariance
de comme la réciproque de la matrice d’information
de Fisher observée :
qui est la négative de la matrice
hessienne (matrice de courbure) de la fonction du logarithme du rapport de vraisemblance
à son maximum.
Dans le
cas de l’inférence bayésienne, si est une densité a priori pour le logarithme de la densité a posteriori
pour est
où
Si la densité a priori
est plane dans les zones de vraisemblance appréciable, la densité a posteriori
de qui quantifie l’inférence au sujet de correspond à une densité ayant un mode égal à et la courbure de son logarithme est égale à
la négative de la matrice d’information de Fisher, ce qui fait en sorte que la
variance-covariance a posteriori de est approximativement égale à la réciproque de
dans l’équation (2.13). Ainsi,
l’estimation bayésienne de est efficace du point de vue fréquentiste;
autrement, l’inférence fréquentiste se rapproche de l’inférence bayésienne.
Supposons
que, dans le contexte fréquentiste, la fonction de score est remplacée par une
autre fonction d’estimation qui est sans biais dans le sens où elle a une
espérance nulle. Voir, par exemple, Lindsay, Yi et Sun (2011).
L’estimateur n’a alors plus une efficacité optimale.
Cependant, il est convergent, et sa variance peut être estimée au moyen de la
méthode delta ou de la linéarisation de la fonction Nous pourrions vouloir considérer en remplacement d’un vecteur de score ou comme
le gradient à l’égard de d’un substitut de la fonction de logarithme du
rapport de vraisemblance. En particulier, on pourrait considérer les équations
fondées sur la vraisemblance composite en remplacement des équations
d’estimation de score.
Une
question qui se pose est alors celle de savoir si un substitut de la fonction
du logarithme du rapport de vraisemblance comportant le gradient pourrait jouer le rôle du logarithme du
rapport de vraisemblance dans l’inférence bayésienne et mener à une loi a posteriori
approximativement exacte dans l’équation (2.14) et, dans la négative, s’il
existe des moyens fondés sur des principes de le corriger.
Ainsi,
supposons que nous avons une solution de rechange à la fonction de score, à
savoir la fonction d’estimation qui est sans biais pour en ce sens que :
Supposons que la solution de l’équation maximise une fonction que nous voudrions considérer comme une
solution de rechange à la fonction du logarithme du rapport de vraisemblance;
par exemple, pourrait être une fonction du logarithme du
rapport de vraisemblance composite par paire et Alors serait approximativement égale à la valeur
qu’aurait la log-densité a posteriori si la loi a priori
était non informative et si nous considérions comme étant un substitut de la fonction du
logarithme du rapport de vraisemblance. La variance-covariance a posteriori
substitut de serait approximativement l’inverse de la
négative de la matrice de courbure de à Selon la théorie des fonctions d’estimation (par exemple Heyde, 1997), si nous utilisons le même type d’approximation par série
de Taylor que dans l’équation (2.12), la variance-covariance fréquentiste
de correspond à :
Si était la fonction du logarithme du rapport de
vraisemblance composite par paire, nous obtiendrions, selon le notation de
Ribatet, Cooley et Davison :
où est la valeur réelle de est inférieure à l’espérance de et est égale à la matrice de variance-covariance
de le gradient de
Si avait la propriété (analogue à
l’équation [2.11]) suivante :
de sorte que le côté droit de l’équation (2.15) ou de
l’équation (2.16) serait alors approximativement le même que la
variance-covariance a posteriori substitut de
La
propriété (2.17) est appelée l’absence de
biais d’information d’une fonction d’estimation (Lindsay, 1982). Soit un qui ne satisfait pas l’équation (2.17),
pour produire un qui correspond approximativement à
l’équation (2.17), nous pourrions alors établir
pour une matrice constante de sorte que le gradient de soit fois le gradient de tandis que l’estimation ponctuelle de qui maximise et sa variance-covariance approximative
demeurent inchangées.
Nous
voulons obtenir et il peut être démontré que cela équivaut à
qui est un ajustement de la courbure comme celui présenté dans l’étude de Ribatet,
Cooley et Davison, où il est suggéré de prendre la solution de
l’équation (2.19) qui établit où et