2 Inférence conjointe et superpopulation

Chen Xu, Jiahua Chen et Harold Mantel

Le comportement aléatoire d'une procédure d'inférence découle principalement du caractère aléatoire des données. Dans le contexte des enquêtes, l'ensemble d'unités échantillonnées est aléatoire en raison du plan d'échantillonnage probabiliste. Parallèlement, la valeur de chaque unité échantillonnée peut être considérée comme un résultat aléatoire provenant d'une superpopulation conceptuellement infinie (Royall 1976).

Dans une analyse fondée sur le plan de sondage, la population finie est considérée comme non aléatoire et toutes les mesures des unités d’échantillonnage sont constantes. Les paramètres d'intérêt sont les quantités dans la population finie, telles que le total ou la médiane de la population. L'inférence statistique est évaluée en se basant sur le caractère aléatoire découlant du plan de sondage probabiliste.

On peut également considérer le caractère aléatoire induit par le plan de sondage comme un artéfact. Les mesures des unités échantillonnées sont alors des réalisations indépendantes d'une variable aléatoire provenant d'un modèle probabiliste de la superpopulation postulée. Des paramètres d'intérêt sont reliés au modèle hypothétique et les inférences sous le modèle sont évaluées uniquement en se basant sur la randomisation introduite par le modèle.

Une troisième approche, appelée inférence sous le modèle et le plan, incorpore la randomisation venant du plan de sondage ainsi que du modèle. Sous un tel mécanisme de randomisation conjointe, la population finie est considérée comme un échantillon aléatoire tiré d'une superpopulation. L'échantillon d'enquête est considéré comme résultant d'un échantillonnage de deuxième phase de la superpopulation. Les paramètres d'intérêt peuvent être des paramètres du modèle ou des paramètres de population finie. Sous ce mécanisme, les inférences au sujet des paramètres de la population finie sont motivées par le modèle de superpopulation. L'inférence sous le modèle et le plan de sondage peut être plus efficace que les approches fondées purement sur le plan lorsque la population finie est bien décrite par le modèle de superpopulation. Comparativement aux approches fondées purement sur le modèle, elle protège contre la violation du modèle et est par conséquent généralement plus robuste (voir, p. ex., Binder et Roberts 2003; Kalton 1983).

Nous étudions le problème de la sélection des variables sous le mécanisme de randomisation conjointe. Soit $D = {1, \dots, N}$ une population finie constituée de $N$ unités échantillonnées. Les mesures faites sur la $i^{e}$ unité sont désignées $(y_{i}, x_{i}),$ où $y_{i}$ est la réponse d'intérêt et $x_{i} = {(x_{i 1}, \dots, x_{i p})}^{T}$ est un vecteur de variables explicatives de dimension $p$ (vecteur de covariables). Ces éléments sont considérés comme des réalisations indépendantes de $(Y, X)$ provenant d'une superpopulation. Nous postulons un modèle linéaire généralisé (MLG) sur la superopulation de la façon suivante. Conditionnellement à $X,$ la loi de $Y$ appartient à une famille exponentielle naturelle, dont la densité prend la form

$f (y; θ) = c (y) \exp {θ y - b (θ)} . (2.1)$

$θ$ est connu comme étant le paramètre naturel de $f (y; θ)$ tel que $b^{'} (θ) = E [Y | X] \equiv μ$ et $b^{″} (θ) = Var [Y | X] \equiv σ^{2}$ , et $c (y)$ est une mesure de base non négative. L'influence de la variable explicative $X$ sur $Y$ est exprimée par $g (μ) = X^{T} β$ pour une certaine fonction de lien supposée $g (.),$ où le vecteur $β = {β_{1}, \dots, β_{p}}^{T}$ est le coefficient de régression de dimension $p .$ Si $g (.)$ est le lien canonique, c.-à-d. $g (μ) = θ,$ alors nous avons $θ = X^{T} β .$ Pour simplifier, nous nous concentrons sur le lien canonique dans le présent article.

Sur la base de ce modèle, l'effet de la variable explicative est caractérisé par la taille du coefficient de régression correspondant. Dans les applications, un modèle complexe contenant de nombreuses variables aboutit souvent à un surajustement et à une médiocre capacité d'interprétation. Donc, il est souhaitable d'ajuster les données au moyen d'un modèle parcimonieux dans lequel de nombreux coefficients de régression sont estimés être nuls. Les variables explicatives dont les coefficients ne sont pas nuls sont alors considérées comme influant sur la réponse. À cette fin, nous supposons que $β$ est idéalement parcimonieux et nous abordons le problème de sélection des variables en déterminant un modèle parcimonieux formé par les covariables dont les coefficients ne sont pas nuls.

Précédent | Suivant

Date de modification :: 2017-09-20

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

2 Inférence conjointe et superpopulation