Recherche par

4. Variance anticipée

Piero Demetrio Falorsi et Paolo Righi

Avant l’échantillonnage, les valeurs de $y_{r k}$ ne sont pas connues et la variance exprimée par la formule (3.4) ne peut pas être utilisée pour planifier la précision de l’échantillonnage à la phase d’élaboration du plan. En pratique, il est nécessaire d’obtenir des valeurs substitutives ou de prédire les valeurs $y_{r k}$ en se basant sur des modèles de superpopulation qui exploitent l’information auxiliaire. La disponibilité croissante d’information auxiliaire (obtenue par intégration des registres administratifs et des bases de sondage) facilite l’usage des prédictions. Sous inférence fondée sur un modèle, on suppose que les valeurs de $y_{r k}$ sont la réalisation d’un modèle de superpopulation $M .$ Le modèle que nous étudions est de la forme suivante :

${\begin{array}{l} y_{r k} = f_{r} (x_{k}; β_{r}) + u_{r k} \\ E_{M} (u_{r k}) = 0 \forall k; E_{M} (u_{r k}^{2}) = σ_{r k}^{2}; E_{M} (u_{r k}, u_{r l}) = 0 \forall k \neq l \end{array}, (4.1)$

où $x_{k}$ est un vecteur de variables explicatives (disponibles dans la base de sondage), $β_{r}$ est un vecteur de coefficients de régression et $f_{r} (x_{k}; β_{r})$ est une fonction connue, $u_{r k}$ est le terme d’erreur et $E_{M} (\cdot)$ désigne l’espérance sous le modèle. Les paramètres $β_{r}$ et les variances $σ_{r k}^{2}$ sont supposés connus, quoiqu’en pratique ils sont habituellement estimés. Le modèle (4.1) est spécifique à une variable, et l’on peut utiliser différents modèles pour différentes variables sans créer de difficultés supplémentaires. Comme mesure de l’incertitude, nous considérons la variance anticipée (VA) (Isaki et Fuller 1982):

$VA ({\hat{t}}_{(d r)}) = E_{M} E_{p} {({\hat{t}}_{(d r)} - t_{(d r)})}^{2} . (4.2)$

Une expression générale pour la VA sous des modèles linéaires a été établie par Nedyalkova et Tillé (2008). Leur formulation s’obtient en considérant une fonction linéaire $f_{r} (\cdot)$ et un ensemble unique de variables auxiliaires, $x_{k},$ utilisé à la fois pour la prédiction des valeurs de $y$ et pour l’équilibrage de l’échantillon. Dans notre contexte, nous avons introduit $x_{k}$ et $z_{k} = π_{k} δ_{k},$ en soulignant que les variables auxiliaires peuvent être différentes pour la prédiction et l’équilibrage. Les variables $x_{k}$ doivent être aussi prédictives de $y_{r k}$ que possible, tandis que les variables $z_{k}$ jouent un rôle instrumental dans le contrôle des tailles d’échantillon pour les sous-populations.

Dans le contexte considéré ici, en insérant la variance approximative (3.4) dans l’équation (4.2), nous obtenons l’expression approximative de la VA :

$VAA ({\hat{t}}_{(d r)}) = [N / (N - H)] \sum_{k \in U} (1 / π_{k} - 1) E_{M} (η_{(d r) k}^{2}), (4.3)$

où les termes $η_{(d r) k}^{2}$ de (3.4) sont remplacés par $E_{M} (η_{(d r) k}^{2}) .$ En définissant

${\tilde{y}}_{r k} = f_{r} (x_{k}; β_{r}), (4.4)$

nous pouvons reformuler l’équation (4.3) sous la forme

$VAA ({\hat{t}}_{(d r)}) = [N / (N - H)] [\sum_{k \in U} \frac{1}{π_{k}} ({\tilde{y}}_{r k}^{2} + σ_{r k}^{2}) γ_{d k} - \sum_{k \in U} ({\tilde{y}}_{r k}^{2} + σ_{r k}^{2}) γ_{d k} - {VAA}_{3 (d r)}], (4.5)$

où la troisième composante de variance de $VAA ({\hat{t}}_{(d r)})$ est

$\begin{array}{l} {VAA}_{3 (d r)} & = & {\sum_{k \in U} (1 - π_{k}) a}_{(d r) k} (π) [2 {\tilde{y}}_{r k} γ_{d k} - π_{k} a_{(d r) k} (π)] \\ + & \sum_{k \in U} (1 - π_{k}) [2 b_{(d r) k} (π) - π_{k} c_{(d r) k} (π)] \end{array} (4.6)$

et $a_{(d r) k} (π),$ $b_{(d r) k} (π)$ et $c_{(d r) k} (π)$ sont des nombres réels définis respectivement par les équations (A1.4), (A1.7) et (A1.8) de l’annexe A1.

Remarque 4.1. L’expression (4.5) est une formule dont le calcul est laborieux mais, à toute fin pratique, ce calcul peut être simplifié au moyen d’une légère approximation à la hausse en posant que $b_{(d r) k} (π) = c_{(d r) k} (π) = 0$ dans (4.6). La preuve est donnée à l’annexe A3. Une approximation à la hausse est un choix prudent dans ces conditions, puisqu’il évite le risque de définir une taille d’échantillon insuffisante pour la précision attendue.

Remarque 4.2. Le plan EASSRS est obtenu si les domaines planifiés définissent une partition unique de la population (Option 1 de l’exemple à la section 2) et que le modèle (4.1) est spécifié de façon que les valeurs prédites soient ${\tilde{y}}_{r k} = {\bar{Y}}_{r h}$ avec $σ_{r k}^{2} = σ_{r h}^{2}$ (pour $k \in U_{h}) .$ La VAA devient

$VAA ({\hat{t}}_{(d r)}) = [N / (N - H)] \sum_{d = 1}^{D} \sum_{h \in H_{d}} σ_{r h}^{2} N_{h} (N_{h} / n_{h} - 1), (4.7)$

où $H_{d}$ est l’ensemble de domaines planifiés inclus dans $U_{d}$ (voir l’annexe A4). Notons que l’expression (4.7) concorde avec le résultat 2 de Nedyalkova et Tillé (2008), sauf pour le terme $N / (N - H) .$ Si $[N / (N - H)] (1 / N_{h}) \approx 1 / (N_{h} - 1),$ l’expression (4.7) approximerait la variance de l’estimation HT sous le plan EASSRS. Il est prouvé que l’approximation susmentionnée est vraie quand le nombre de domaines $H$ reste petit comparativement à la taille globale de la population $N,$ et que les tailles de domaine $N_{h}$ sont grandes.

Précédent | Suivant

Date de modification :: 2015-11-27

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

4. Variance anticipée