4. Variance anticipée
Piero Demetrio Falorsi et Paolo Righi
Précédent | Suivant
Avant l’échantillonnage, les valeurs de
ne sont pas connues et la
variance exprimée par la formule (3.4) ne peut pas être utilisée pour
planifier la précision de l’échantillonnage à la phase d’élaboration du plan.
En pratique, il est nécessaire d’obtenir des valeurs substitutives ou de
prédire les valeurs
en se basant sur des modèles
de superpopulation qui exploitent l’information auxiliaire. La disponibilité
croissante d’information auxiliaire (obtenue par intégration des registres
administratifs et des bases de sondage) facilite l’usage des prédictions. Sous
inférence fondée sur un modèle, on suppose que les valeurs de
sont la réalisation d’un modèle de superpopulation
Le modèle que nous étudions est de la forme suivante :
où
est un vecteur
de variables explicatives (disponibles dans la base de sondage),
est un vecteur
de coefficients de régression et
est une fonction connue,
est le terme
d’erreur et
désigne
l’espérance sous le modèle. Les paramètres
et les variances
sont supposés
connus, quoiqu’en pratique ils sont
habituellement estimés. Le modèle (4.1) est spécifique à une variable, et l’on
peut utiliser différents modèles pour différentes variables sans créer de
difficultés supplémentaires. Comme mesure de l’incertitude, nous considérons la variance anticipée (VA) (Isaki et
Fuller 1982):
Une expression générale pour la VA sous
des modèles linéaires a été établie par Nedyalkova et Tillé (2008). Leur
formulation s’obtient en considérant une fonction linéaire
et un ensemble unique de
variables auxiliaires,
utilisé à la fois pour la
prédiction des valeurs de
et pour
l’équilibrage de l’échantillon. Dans notre contexte, nous avons introduit
et
en soulignant que les
variables auxiliaires peuvent être différentes pour la prédiction et
l’équilibrage. Les variables
doivent être aussi
prédictives de
que possible, tandis que les variables
jouent un rôle instrumental dans
le contrôle des tailles d’échantillon pour les sous-populations.
Dans le contexte considéré ici, en
insérant la variance approximative (3.4) dans l’équation (4.2), nous
obtenons l’expression approximative de la VA :
où
les termes
de (3.4) sont
remplacés par
En définissant
nous
pouvons reformuler l’équation (4.3) sous la forme
où
la troisième composante de variance de
est
et
et
sont des nombres
réels définis respectivement par les équations (A1.4), (A1.7) et (A1.8) de
l’annexe A1.
Remarque 4.1. L’expression (4.5) est une
formule dont le calcul est laborieux mais, à toute fin pratique, ce calcul peut
être simplifié au moyen d’une légère approximation à la hausse en posant que
dans (4.6). La
preuve est donnée à l’annexe A3. Une approximation à la hausse est un
choix prudent dans ces conditions, puisqu’il évite le risque de définir une
taille d’échantillon insuffisante pour la précision attendue.
Remarque 4.2. Le plan EASSRS est obtenu si les
domaines planifiés définissent une partition unique de la population (Option 1
de l’exemple à la section 2) et que le modèle (4.1) est spécifié de
façon que les valeurs prédites soient
avec
(pour
La VAA devient
où
est l’ensemble de domaines planifiés inclus dans
(voir l’annexe A4). Notons que
l’expression (4.7) concorde avec le résultat 2 de Nedyalkova et Tillé (2008), sauf pour le terme
Si
l’expression (4.7)
approximerait la variance de l’estimation HT sous le plan EASSRS. Il est prouvé
que l’approximation susmentionnée est vraie quand le nombre de domaines
reste petit
comparativement à la taille globale de la population
et que les
tailles de domaine
sont grandes.
Précédent | Suivant