Critère de choix entre la pondération de calage et celle de sondage
Section 2. Estimateur du total d’une variable d’intérêt
Soit
une population de taille
à partir de laquelle on
sélectionne un échantillon
de taille
selon un plan de sondage
On note par
la variable aléatoire telle que
et par
et
respectivement les probabilités
d’inclusion d’ordre un et deux du plan de sondage
On s’intéresse à une variable d’intérêt
en ayant pour objectif l’estimation
de son total
Pour cela, on considère la
classe des estimateurs linéaires
où
sont des poids qui peuvent
dépendre de l’échantillon
et des variables auxiliaires
disponibles. Les poids de base utilisés sont ceux de sondage qui sont donnés
par
et qui correspondent à l’estimateur
de Horvitz-Thompson (1952).
On suppose qu’on dispose de
variables auxiliaires
dont les valeurs peuvent être
représentées par les vecteurs
et pour lesquelles le vecteur de
leurs totaux
est connu. La classe des
estimateurs par calage est définie par
où
appelés poids de calage,
vérifient l’équation de calage donnée par
Le calage permet de réduire la
variance de l’estimateur d’un total surtout pour les variables d’intérêt qui sont
liées aux variables auxiliaires utilisées dans le calage. Cependant, le calage
conduit à un estimateur dont le biais est non nul. C’est pour cela que les
poids de calage sont déterminés de telle sorte qu’ils soient les plus proches
possible de ceux de sondage et ceci afin de pouvoir maîtriser ce biais.
2.1 Précision d’un estimateur linéaire du total
Pour mesurer la précision d’un estimateur
linéaire du total, nous considérons l’approche basée sur le plan de sondage et
le modèle. En effet, en plus de la distribution du plan de sondage, cette
approche consiste à supposer que les valeurs
de la variable d’intérêt
sont les réalisations d’un
vecteur aléatoire
dont la distribution de
probabilités conjointes est donnée par le modèle de Superpopulation
définit par :
avec
où
sont des paramètres inconnus.
et
représentent respectivement l’espérance,
la variance et la covariance sous le modèle. L’estimateur du vecteur
des coefficients de régression
est donné par
où
est la matrice des valeurs des
pour
et
Sous l’approche basée sur le
plan et le modèle, le critère utilisé pour mesurer la précision d’un estimateur
linéaire du total est
qui correspond à l’Écart Quadratique
Moyen sous le plan et le modèle, appelé aussi l’EQM anticipée. Cette formulation suppose que le plan de sondage n’est
pas informatif. Ainsi, on peut montrer que l’EQM anticipée d’un estimateur linéaire
est donné par (Nedyalkova et
Tillé, 2008):
où
avec
(poids de sondage) et
pour
et
sinon. On note que le ratio
vaut 1 quand l’estimateur
linéaire
est sans biais sous le plan.
2.2 EQM anticipé de l’estimateur par calage
Pour l’estimateur par calage, le fait de
vérifier l’équation de calage le rend sans biais sous le modèle :
Par conséquent, l’expression de son EQM anticipée est donnée par
avec
et
En effet, on a
Notons que l’expression (2.5) de
permet de mettre en évidence les
deux critères dont dépend la précision de l’estimateur par calage
Le premier est celui
correspondant au modèle de Superpopulation
à travers sa variance
résiduelle
qui diminue quand la variable d’intérêt
et les variables de calage sont corrélées entre elles (réduction de la variance
de
Le second critère est représenté
par les rapports de poids
qui deviennent importants quand
les poids de calage sont très différents de ceux de sondage (augmentation du
biais de
2.3 EQM anticipée de l’estimateur de HT
Pour élaborer notre critère de choix entre
les pondérations de calage et de sondage, nous avons besoin de déterminer l’expression
de l’EQM anticipée de l’estimateur
HT. Comme ce dernier est sans biais sous le plan
son EQM anticipée est donné par
On note que l’expression de l’EQM anticipée de
dépend des probabilités
qui sont généralement inconnues
et difficiles à calculer pour des plans de sondage à probabilités inégales.
Plusieurs approximations de ces probabilités ont été proposées dans la
littérature permettant d’obtenir plusieurs estimateurs possibles de la variance
de l’estimateur de HT. Cependant, Matei et Tillé (2005) montrent à travers une
série de simulations que ces estimateurs sont presque équivalents et permettent
de bien estimer l’expression exacte de la variance sous le plan de
En effet, une approximation de
peut être obtenue en considérant
celle proposée par Hájek (1981) pour la variance de l’estimateur HT et qui est
donnée par
où
et
Cette dernière est obtenue à
partir de l’approximation suivante des probabilités
(voir Deville et Tillé, 2005;
Tirari, 2003) :
Par conséquent, l’EQM anticipée de
peut être approximée par
Notons que pour des plans de sondage
simples tels que le plan de Poisson ou le plan stratifié aléatoire simple, les
probabilités conjointes peuvent être calculées exactement sans avoir recours à
une approximation. Dans ce qui suit, nous allons nous baser sur l’EQM anticipée des estimateurs par calage et
HT pour élaborer une nouvelle mesure de l’effet de l’utilisation des poids de calage.
ISSN : 1712-5685
Politique de rédaction
Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.
Présentation de textes pour la revue
Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).
Note de reconnaissance
Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.
Normes de service à la clientèle
Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.
Droit d'auteur
Publication autorisée par le ministre responsable de Statistique Canada.
© Sa Majesté la Reine du chef du Canada, représentée par le ministre de l’Industrie 2018
L'utilisation de la présente publication est assujettie aux modalités de l'Entente de licence ouverte de Statistique Canada.
N° 12-001-X au catalogue
Périodicité : semi-annuel
Ottawa