Inférence bayésienne pour un modèle des composantes de la variance fondée sur la vraisemblance composite par paire à partir des données d’enquête
Section 4. Prolongement des plans d’échantillonnage avec probabilités inégales
Un
prolongement important des conditions que nous avons établies se rapporte à un
cadre d’échantillonnage complexe, pour lequel l’estimation fréquentiste des
paramètres par l’estimation d’une vraisemblance composite par paire à l’échelle
de la population est maintenant assez couramment utilisée. Rao, Verret et
Hidiroglou et Yi, Rao et Li ont démontré qu’une approche fondée sur l’application
d’une vraisemblance composite par paire fréquentiste fonctionne bien pour
estimer les composantes de la variance d’un modèle multiniveau dans le cas de
certains plans d’échantillonnage avec probabilités inégales et permet d’éviter
le problème d’incohérence lorsque les tailles de l’échantillon de deuxième
degré sont petites. Dans le cadre de cette approche, l’estimation de
l’incertitude est fondée sur la théorie des fonctions d’estimation et peut ne
pas nécessiter les ajustements que nous prenons en compte dans le présent article.
Cependant, il serait souhaitable de formuler un équivalent bayésien de cette
méthode. Si l’on convenait d’une formulation bayésienne, les résultats de
l’étude permettraient de prévoir la nécessité de l’ajustement du pseudo-logarithme
du rapport de vraisemblance composite par paire pour l’harmoniser à une
fonction de logarithme du rapport de vraisemblance complet adéquat.
Supposons
que l’objectif est toujours analytique, que le modèle pour est l’équation (1.1) et que les objets de
l’inférence sont la moyenne et la composante de la variance ou sa racine carrée. La population cible
comporte unités de premier degré présentant des tailles
de et l’échantillon de premier degré se compose
de de ces unités, sélectionnées au moyen d’un
plan d’échantillonnage avec probabilités inégales. Au deuxième degré, unités élémentaires sont sélectionnées par
échantillonnage aléatoire simple à partir de la unité de premier degré, si cette unité a été
échantillonnée au premier degré. Si les tailles et et les probabilités liées au plan
d’échantillonnage (où traverse les sous-ensembles de la population
de deuxième degré satisfaisant aux spécifications de tailles d’échantillon) ne
dépendent pas des valeurs de ou de la fonction de vraisemblance peut être considérée
comme prenant la forme de l’équation (2.3), étant remplacée par et le prolongement de nos travaux est en
principe simple. Cependant, si les tailles ou les probabilités liées au plan
d’échantillonnage dépendent des valeurs de ou de elles nous renseigneront sur les paramètres
d’intérêt. La fonction de vraisemblance à l’échelle de l’échantillon issue de
la combinaison du modèle multiniveau et du plan d’échantillonnage peut être mal
définie ou impossible à traiter. D’un point de vue bayésien, nous devons alors
considérer ce qui peut raisonnablement remplacer la vraisemblance véritable et
dans quelle mesure ce substitut peut être estimé avec précision au moyen d’une
vraisemblance composite par paire ajustée. Les réponses peuvent dépendre de la
méthode privilégiée pour utiliser les probabilités liées au plan
d’échantillonnage dans l’inférence, et il existe plusieurs possibilités. Il
serait intéressant d’étudier ces possibilités dans les travaux à venir.
Une
méthode, dont l’applicabilité est limitée, serait fondée sur l’approche de
Léon-Novelo et de Savitsky (2019). En supposant un échantillonnage de Bernoulli
à un degré (de sorte que les probabilités d’échantillonnage soient entièrement
déterminées par les probabilités d’inclusion), ceux-ci modélisent la
distribution conjointe de la variable de résultat, et la probabilité d’inclusion, en utilisant le modèle générant à partir de dans la population et un modèle générant à partir de et de Pour rendre les calculs possibles, des
restrictions doivent être imposées à la forme de ce modèle; voir le théorème 1
et, en particulier, le cas spécial présenté à la section 2.1 de leur
article.
Nous
pouvons étendre le modèle présenté à la section 2.1 de Léon-Novelo et
Savitsky (2019) à l’échantillonnage en grappes à deux degrés. On peut faire un
autre prolongement, c’est-à-dire remplacer la densité d’échantillonnage de par une vraisemblance composite par paire
analogue à la partie de vraisemblance du modèle (2.6). Ainsi, sous réserve des
limites du théorème 1 de Léon-Novelo et Savitsky (2019), il existe des
équivalents aux densités a posteriori, les équations (2.5) et
(2.6), qui incluent les probabilités d’inclusion.
Une
autre méthode, partiellement bayésienne, mais peut-être le prolongement le plus
largement applicable de notre approche, consiste à considérer comme exacte la
fonction de logarithme du rapport de vraisemblance de la population (complète)
(équations [2.5] et [2.6] de Rao, Verret et Hidiroglou) et à formuler une
fonction correspondante de logarithme du rapport de vraisemblance composite par
paire pour la population complète comme dans notre section 2. Nous
tenterions ensuite d’estimer cette dernière à partir de l’échantillon en
utilisant des poids d’échantillonnage (équation [4.2] de Rao, Verret et
Hidiroglou) et nous ferions des ajustements, comme la normalisation adéquate
des poids ou le « rééchelonnage » comme dans Pfeffermann, Skinner,
Holmes, Goldstein et Rasbash (1998), et des ajustements de la courbure à la
fonction de logarithme du rapport de vraisemblance composite par paire estimé
qui en résultent. Cela produirait une fonction de pseudo-logarithme du rapport
de vraisemblance par paire qui pourrait être utilisée comme une fonction de
logarithme du rapport de vraisemblance approximatif dans l’inférence
bayésienne. Cela permettrait d’obtenir un équivalent bayésien à la méthode
fréquentiste proposée par Rao, Verret et Hidiroglou et par Yi, Rao et Li et
d’étendre la méthode exposée dans le présent article à la situation
d’échantillonnage avec probabilités inégales.
Nous
avons obtenu des renseignements préliminaires pour cette deuxième approche.
C’est-à-dire que si est connue, les expressions analytiques pour
la vraisemblance complète et la vraisemblance composite par paire sont
disponibles pour à l’échelle de la population complète. Pour la
vraisemblance partielle, nous modifions l’équation (2.8) en prenant maintenue constante et en ajoutant les poids et comme dans l’équation (4.2) de Rao, Verret et
Hidiroglou. Avec une loi a priori uniforme localement pour
où
avec
et
Après quelques calculs algébriques,
De même, nous modifions l’équation (2.7)
en maintenant constante et en ajoutant les poids. Avec une
loi a priori uniforme localement pour
Après quelques calculs algébriques,
où
et
Le
choix du rééchelonnage des poids sera important. Pour quantifier la précision
surestimée dans la loi a posteriori du logarithme du rapport de
vraisemblance composite par paire, il peut être nécessaire de faire une
évaluation numérique.
Un
avantage de procéder à d’autres prolongements de cette approche bayésienne dans
les travaux à venir serait qu’elle est axée sur l’inférence pour les paramètres
du modèle, plutôt sur que les quantités dans la population finie, et il ne
serait donc pas nécessaire de considérer des probabilités d’inclusion de
troisième ou de quatrième ordre dans l’estimation de l’incertitude pour ou
ISSN : 1712-5685
Politique de rédaction
Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.
Présentation de textes pour la revue
Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).
Note de reconnaissance
Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.
Normes de service à la clientèle
Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.
Droit d'auteur
Publication autorisée par le ministre responsable de Statistique Canada.
© Sa Majesté le Roi du chef du Canada, représentée par le ministre de l’Industrie 2022
Tous droits réservés. L'utilisation de la présente publication est assujettie aux modalités de l'Entente de licence ouverte de Statistique Canada.
N° 12-001-X au catalogue
Périodicité : semi-annuel
Ottawa