Inférence bayésienne pour un modèle des composantes de la variance fondée sur la vraisemblance composite par paire à partir des données d’enquête
Section 1. Introduction
Les
plans d’échantillonnage à plusieurs degrés sont utilisés dans de nombreuses
enquêtes menées à l’échelle de la population. De plus en plus, des modèles
multiniveaux sont utilisés pour faire des inférences lorsque les données sont
obtenues à partir d’une enquête à plusieurs degrés.
Dans le
but d’améliorer ces inférences, Rao, Verret et Hidiroglou (2013) ont proposé
d’utiliser une approche fondée sur le logarithme du rapport de vraisemblance composite
par paire pondéré. Il existe une abondante litérature sur les vraisemblances
composites : voir les articles de Varin (2008), de Varin, Reid et Firth
(2011) et de Yi (2017), ainsi que de nombreuses applications. À lasection 4 de leur article, Rao, Verret et Hidiroglou décrivent une
approche unifiée applicable aux modèles linéaires et aux modèles linéaires
généralisés. Des aspects importants de leurs travaux comprennent a) l’obtention
d’estimations ponctuelles convergentes par rapport au plan d’échantillonnage
des paramètres de moyenne et de régression et des composantes de la variance et
b) l’utilisation de probabilités d’inclusion de premier ordre et de
probabilités de deuxième ordre dans les grappes seulement. En particulier, les
travaux de Rao, Verret et Hidiroglou à l’égard de a) sont importants en raison
de la convergence par rapport au plan d’échantillonnage lorsque le nombre de
grappes (unités de premier degré) augmente tandis que la taille des grappes
demeure petite (Pfeffermann, Skinner, Holmes, Goldstein et Rasbash, 1998).
Contrairement à l’approche de pseudo-vraisemblance couramment utilisée (Rabe-Hesketh
et Skrondal, 2006), leur méthode permet de s’assurer que a) vaut pour les
résultats des modèles linéaires généralisés. Les travaux de Rao, Verret et
Hidiroglou ont été approfondis par Yi, Rao et Li (2016), qui fournissent un
cadre plus général, des considérations théoriques supplémentaires et des
simulations exhaustives.
Deux
phénomènes connexes ont donné lieu à nos travaux. D’une part, on s’intéresse de
plus en plus à l’utilisation des méthodes bayésiennes pour faire des inférences
à partir de données d’enquêtes. La section 5 présente une référence
générale ainsi qu’une introduction à des articles décrivant une utilisation
abondante de méthodes bayésiennes au Service national de la statistique agricole
du ministère américain de l’Agriculture. D’autre part, il existe des écrits
(bayésiens) démontrant la possibilité d’une précision surestimée en utilisant
des vraisemblances composites non
ajustées, par exemple Ribatet, Cooley et Davison (2012) et Stoehr et
Friel (2018).
Notre
approche consiste à utiliser d’abord une loi a posteriori
considérée comme proportionnelle au produit d’une vraisemblance composite et
d’une loi a priori. En comparant cette loi a posteriori
approximative à une autre qui repose sur la vraisemblance complète, nous
démontrons que les inférences fondées sur la loi a posteriori
approximative affichent une précision surestimée. En apportant des ajustements
à la loi a posteriori en fonction de la vraisemblance composite
comme c’est le cas dans Ribatet, Cooley et Davison, nous utilisons ensuite des
simulations pour comparer les trois façons de formuler une loi a posteriori,
c’est-à-dire celles reposant sur la vraisemblance composite complète, composite
et ajustée. Nous procédons, pour ce faire, à un examen visuel des graphiques
des densités et des couvertures a posteriori (simulations répétées)
de 95 % des intervalles de crédibilité pour les paramètres du modèle.
La
méthodologie est décrite à la section 2.3. Les ajustements à la loi a posteriori
approximative en fonction d’une vraisemblance composite sont dérivés d’une
transformation du logarithme de la vraisemblance composite à son mode, conçue
de sorte que la négative de l’inverse de la matrice de courbure de la densité a posteriori
approximative à son mode soit proportionnelle à la matrice de
variance-covariance a posteriori correspondante des paramètres. Cette approche est
semblable à la propriété dans l’inférence fréquentiste faisant que l’inverse de
la matrice d’information de Fisher observée (la négative de la matrice
hessienne du logarithme du rapport de vraisemblance à son mode) permet
d’estimer la matrice de variance-covariance des estimations du maximum de
vraisemblance.
Afin de
traiter de la question principale, nous utilisons une loi a priori
« non informative » pour les paramètres de notre modèle, décrite
ci-dessous. La densité a posteriori correspondante se rapproche
alors de la vraisemblance normalisée, et les progrès démontrés dans un contexte
bayésien seraient aussi observés dans une approche fréquentiste fondée sur des
modèles.
Pour
simplifier l’étude initiale, nous supposons un modèle de superpopulation
linéaire à effets aléatoires simple (ordonnée à l’origine seulement). Examinons
une population cible tirée de cette superpopulation et composée d’un grand
nombre de grappes, chacune ayant une taille commune
de, disons, Soit la variable de réponse continue pour l’unité
élémentaire dans la grappe avec et Nous utilisons la notation
où tous les et les sont indépendants et et sont des paramètres.
Nous
commençons aussi en supposant que le plan d’échantillonnage est un échantillon
aléatoire simple de grappes, où est un nombre entier positif. Cela présente
l’avantage que le modèle (1.1) vaut non seulement pour la superpopulation et la
population finie, mais également (en remplaçant par pour l’échantillon lui-même, qui résulte de la
génération de la population suivie de la sélection de l’échantillon à l’aide du
plan d’échantillonnage. Cela permet de s’assurer que la fonction de
vraisemblance à utiliser dans l’inférence bayésienne est bien définie. De plus,
nous pouvons démontrer que l’inférence bayésienne de l’échantillon pour les
paramètres du modèle (1.1) pourrait aussi être interprétée du point de vue de
la théorie fréquentiste dans les utilisations analytiques des données d’enquête
(Skinner, Holt et Smith, 1989).
Nos
travaux sont utiles, car nous démontrons les dangers d’utiliser une vraisemblance
composite par paire non ajustée pour
former une loi a posteriori approximative d’inférence même dans ce
cas très simple et direct. Des prolongements des plans d’échantillonnage avec
probabilités inégales sont examinés à la section 4.
L’ajustement
proposé donne lieu à d’excellentes propriétés fréquentistes pour l’inférence
sur la moyenne La moyenne a posteriori de est peu biaisée sur le plan de la fréquence,
et la couverture fréquentiste des intervalles de crédibilité s’harmonise aux
niveaux nominaux. Pour cette approche donne lieu à une amélioration
considérable par rapport à l’utilisation de la vraisemblance composite non
ajustée. Cependant, la couverture est inférieure au niveau nominal, de sorte
que d’autres travaux sur la manière de modifier l’ajustement sont nécessaires.
Le reste du présent document est structuré
de la manière suivante. La section 2 fournit les définitions de la
vraisemblance composite complète, composite et ajustée et des lois a priori.
Une description de l’ajustement de la courbure et des raisons de son
utilisation est ensuite présentée. Les études par simulations sont décrites à
la section 3, y compris le modèle, les lois a priori, les
tailles d’échantillon et leurs paramètres, le nombre de répliques, etc. Cette
section décrit également un tableau de la manière dont les résultats sont
exposés et présente un résumé de nos constatations. Des prolongements des cas
d’échantillonnage avec probabilités inégales sont examinés à la section 4.
Les conclusions sont présentées à la section 5.
ISSN : 1712-5685
Politique de rédaction
Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.
Présentation de textes pour la revue
Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).
Note de reconnaissance
Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.
Normes de service à la clientèle
Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.
Droit d'auteur
Publication autorisée par le ministre responsable de Statistique Canada.
© Sa Majesté le Roi du chef du Canada, représentée par le ministre de l’Industrie 2022
Tous droits réservés. L'utilisation de la présente publication est assujettie aux modalités de l'Entente de licence ouverte de Statistique Canada.
N° 12-001-X au catalogue
Périodicité : semi-annuel
Ottawa