2 Inférence conjointe et superpopulation
Chen Xu, Jiahua Chen et Harold Mantel
Précédent | Suivant
Le
comportement aléatoire d'une procédure d'inférence découle principalement du
caractère aléatoire des données. Dans le contexte des enquêtes, l'ensemble
d'unités échantillonnées est aléatoire en raison du plan d'échantillonnage
probabiliste. Parallèlement, la valeur de chaque unité échantillonnée peut être
considérée comme un résultat aléatoire provenant d'une superpopulation conceptuellement
infinie (Royall 1976).
Dans une
analyse fondée sur le plan de sondage, la population finie est considérée comme
non aléatoire et toutes les mesures des unités d’échantillonnage
sont
constantes. Les paramètres d'intérêt sont les quantités dans la population
finie, telles que le total ou la médiane de la population. L'inférence
statistique est évaluée en se basant sur le caractère aléatoire découlant du
plan de sondage probabiliste.
On peut
également considérer le caractère aléatoire induit par le plan de sondage comme
un artéfact. Les mesures des unités échantillonnées sont alors des réalisations
indépendantes d'une variable aléatoire provenant d'un modèle probabiliste de la
superpopulation postulée. Des paramètres d'intérêt sont reliés au modèle hypothétique
et les inférences sous le modèle sont évaluées uniquement en se basant sur la
randomisation introduite par le modèle.
Une troisième
approche, appelée inférence sous le modèle et le plan, incorpore la
randomisation venant du plan de sondage ainsi que du modèle. Sous un tel
mécanisme de randomisation conjointe, la population finie est considérée comme
un échantillon aléatoire tiré d'une superpopulation. L'échantillon d'enquête
est considéré comme résultant d'un échantillonnage de deuxième phase de la
superpopulation. Les paramètres d'intérêt peuvent être des paramètres du modèle
ou des paramètres de population finie. Sous ce mécanisme, les inférences au
sujet des paramètres de la population finie sont motivées par le modèle de
superpopulation. L'inférence sous le modèle et le plan de sondage peut être
plus efficace que les approches fondées purement sur le plan lorsque la
population finie est bien décrite par le modèle de superpopulation.
Comparativement aux approches fondées purement sur le modèle, elle protège
contre la violation du modèle et est par conséquent généralement plus robuste
(voir, p. ex., Binder et Roberts 2003; Kalton 1983).
Nous étudions
le problème de la sélection des variables sous le mécanisme de randomisation
conjointe. Soit une population finie constituée de unités échantillonnées. Les mesures faites sur la unité sont désignées où est la réponse d'intérêt et est un vecteur de variables
explicatives de dimension (vecteur de covariables). Ces éléments sont considérés comme des
réalisations indépendantes de provenant d'une superpopulation.
Nous postulons un modèle linéaire généralisé (MLG) sur la superopulation de la
façon suivante. Conditionnellement à la loi de appartient à une famille
exponentielle naturelle, dont la densité prend la form
est connu
comme étant le paramètre naturel de tel que et , et est une
mesure de base non négative. L'influence de la variable explicative sur est
exprimée par pour une
certaine fonction de lien supposée où le
vecteur est le
coefficient de régression de dimension Si est le lien
canonique, c.-à-d. alors nous
avons Pour
simplifier, nous nous concentrons sur le lien canonique dans le présent
article.
Sur la base
de ce modèle, l'effet de la variable explicative est caractérisé par la taille
du coefficient de régression correspondant. Dans les applications, un modèle
complexe contenant de nombreuses variables aboutit souvent à un surajustement
et à une médiocre capacité d'interprétation. Donc, il est souhaitable d'ajuster
les données au moyen d'un modèle parcimonieux dans lequel de nombreux
coefficients de régression sont estimés être nuls. Les variables explicatives
dont les coefficients ne sont pas nuls sont alors considérées comme influant
sur la réponse. À cette fin, nous supposons que est idéalement parcimonieux et nous
abordons le problème de sélection des variables en déterminant un modèle
parcimonieux formé par les covariables dont les coefficients ne sont pas nuls.
Précédent | Suivant