Critère de choix entre la pondération de calage et celle de sondage
Section 2. Estimateur du total d’une variable d’intérêt

Table des matières

Soit $U = {1, \dots, N}$ une population de taille $N$ à partir de laquelle on sélectionne un échantillon $s$ de taille $n$ selon un plan de sondage $p (s) .$ On note par $S$ la variable aléatoire telle que $p (s) = P (S = s)$ et par $π_{k}$ et $π_{k l}$ respectivement les probabilités d’inclusion d’ordre un et deux du plan de sondage $p (s) .$ On s’intéresse à une variable d’intérêt $Y = {(y_{1}, \dots, y_{k}, \dots, y_{N})}^{'}$ en ayant pour objectif l’estimation de son total $t_{y} = \sum_{k \in U} y_{k} .$ Pour cela, on considère la classe des estimateurs linéaires ${\hat{t}}_{y w} = \sum_{k \in S} w_{k S} y_{k}$ où $w_{k S}$ sont des poids qui peuvent dépendre de l’échantillon $S$ et des variables auxiliaires disponibles. Les poids de base utilisés sont ceux de sondage qui sont donnés par $d_{k} = 1 / π_{k}$ et qui correspondent à l’estimateur ${\hat{t}}_{y π}$ de Horvitz-Thompson (1952).

On suppose qu’on dispose de $p$ variables auxiliaires $X_{1}, \dots, X_{p}$ dont les valeurs peuvent être représentées par les vecteurs $x_{k} = {(x_{k 1}, \dots, x_{k p})}^{'}$ et pour lesquelles le vecteur de leurs totaux $t_{x} = \sum_{k \in U} x_{k}$ est connu. La classe des estimateurs par calage est définie par ${\hat{t}}_{y C} = \sum_{k \in S} w_{k S , C} y_{k}$ où $w_{k S , C},$ appelés poids de calage, vérifient l’équation de calage donnée par

$\sum_{k \in S} w_{k S , C} x_{k} = \sum_{k \in U} x_{k} . (2.1)$

Le calage permet de réduire la variance de l’estimateur d’un total surtout pour les variables d’intérêt qui sont liées aux variables auxiliaires utilisées dans le calage. Cependant, le calage conduit à un estimateur dont le biais est non nul. C’est pour cela que les poids de calage sont déterminés de telle sorte qu’ils soient les plus proches possible de ceux de sondage et ceci afin de pouvoir maîtriser ce biais.

2.1 Précision d’un estimateur linéaire du total

Pour mesurer la précision d’un estimateur linéaire du total, nous considérons l’approche basée sur le plan de sondage et le modèle. En effet, en plus de la distribution du plan de sondage, cette approche consiste à supposer que les valeurs $y_{1}, \dots, y_{k} , \dots, y_{N}$ de la variable d’intérêt $Y$ sont les réalisations d’un vecteur aléatoire ${(Y_{1}, \dots, Y_{k}, \dots, Y_{N})}^{'}$ dont la distribution de probabilités conjointes est donnée par le modèle de Superpopulation $ξ$ définit par :

$Y_{k} = x_{k}^{'} β + ε_{k} (2.2)$

avec

$E_{ξ} (ε_{k}) = 0, V a r_{ξ} (ε_{k}) = σ_{k}^{2} {et Cov}_{ξ} (ε_{k}, ε_{l}) = 0$

où $β = {(β_{1}, \dots, β_{p})}^{'} ,$ $σ_{k}^{2}$ $(k \in U)$ sont des paramètres inconnus. $E_{ξ},$ ${Var}_{ξ}$ et ${Cov}_{ξ}$ représentent respectivement l’espérance, la variance et la covariance sous le modèle. L’estimateur du vecteur $β$ des coefficients de régression est donné par

$\hat{β} = {(X_{S}^{'} Π_{S}^{- 1} V_{S}^{- 1} X_{S})}^{- 1} X_{S}^{'} Π_{S}^{- 1} V_{S}^{- 1} Y_{S}$

où $X_{S}^{'}$ est la matrice des valeurs des $x_{k}^{'}$ pour $k \in S,$ $Π_{S} = diag {(π_{k})}_{k \in S}$ et $V_{S} = diag {(σ_{k}^{2})}_{k \in S} .$ Sous l’approche basée sur le plan et le modèle, le critère utilisé pour mesurer la précision d’un estimateur linéaire du total est

${EQM}_{p ξ} ({\hat{t}}_{y w}) = E_{p} E_{ξ} {({\hat{t}}_{y w} - t_{y})}^{2} (2.3)$

qui correspond à l’Écart Quadratique Moyen sous le plan et le modèle, appelé aussi l’EQM anticipée. Cette formulation suppose que le plan de sondage n’est pas informatif. Ainsi, on peut montrer que l’EQM anticipée d’un estimateur linéaire ${\hat{t}}_{y w}$ est donné par (Nedyalkova et Tillé, 2008):

${EQM}_{p ξ} ({\hat{t}}_{y w}) = E_{p} {(\sum_{k \in s} w_{k S} x_{k}^{'} β - \sum_{k \in U} x_{k}^{'} β)}^{2} + \sum_{k \in U} σ_{k}^{2} [{var}_{p} (w_{k S} I_{k}) + {(R_{k S} - 1)}^{2}] (2.4)$

où

$R_{k S} = \frac{E (w_{k S} | I_{k} = 1)}{d_{k}}$

avec $d_{k} = 1 / π_{k}$ (poids de sondage) et $I_{k} = 1$ pour $k \in S$ et $I_{k} = 0$ sinon. On note que le ratio $R_{k S}$ vaut 1 quand l’estimateur linéaire ${\hat{t}}_{y w}$ est sans biais sous le plan.

2.2 EQM anticipé de l’estimateur par calage

Pour l’estimateur par calage, le fait de vérifier l’équation de calage le rend sans biais sous le modèle :

$E_{ξ} ({\hat{t}}_{y C} - t_{y}) = \sum_{k \in S} w_{k S , C} x_{k}^{'} β - \sum_{k \in U} x_{k}^{'} β = 0.$

Par conséquent, l’expression de son EQM anticipée est donnée par

$\begin{array}{l} {EQM}_{p ξ} ({\hat{t}}_{y C}) & = \sum_{k \in U} σ_{k}^{2} [{var}_{p} (w_{k S , C} I_{k}) + {(R_{k} - 1)}^{2}] \\ = \sum_{k \in U} σ_{k}^{2} [\frac{V_{k}}{d_{k}} + R_{k}^{2} (d_{k} - 1) + {(R_{k} - 1)}^{2}] (2.5) \end{array}$

avec $V_{k} = {var}_{p} (w_{k S , C} | I_{k} = 1)$ et $R_{k} = E_{p} (w_{k S , C} | I_{k} = 1) / d_{k} .$

En effet, on a

$\begin{array}{l} {var}_{p} (w_{k S , C} I_{k}) & = E_{p} [{var}_{p} (w_{k S , C} I_{k} | I_{k})] + {var}_{p} [E_{p} (w_{k S , C} I_{k} | I_{k})] \\ = π_{k} {var}_{p} (w_{k S , C} | I_{k} = 1) + π_{k} {[E_{p} (w_{k S , C} | I_{k} = 1)]}^{2} - {[E_{p} (w_{k S , C} I_{k})]}^{2} \\ = \frac{V_{k}}{d_{k}} + R_{k}^{2} (d_{k} - 1) . (2.6) \end{array}$

Notons que l’expression (2.5) de ${EQM}_{p ξ} ({\hat{t}}_{y C})$ permet de mettre en évidence les deux critères dont dépend la précision de l’estimateur par calage ${\hat{t}}_{y C} .$ Le premier est celui correspondant au modèle de Superpopulation $ξ$ à travers sa variance résiduelle $σ_{k}^{2}$ qui diminue quand la variable d’intérêt et les variables de calage sont corrélées entre elles (réduction de la variance de ${\hat{t}}_{y C}) .$ Le second critère est représenté par les rapports de poids $R_{k}$ qui deviennent importants quand les poids de calage sont très différents de ceux de sondage (augmentation du biais de ${\hat{t}}_{y C}) .$

2.3 EQM anticipée de l’estimateur de HT

Pour élaborer notre critère de choix entre les pondérations de calage et de sondage, nous avons besoin de déterminer l’expression de l’EQM anticipée de l’estimateur HT. Comme ce dernier est sans biais sous le plan $(R_{k S} = 1),$ son EQM anticipée est donné par

$\begin{array}{l} {EQM}_{p ξ} ({\hat{t}}_{y π}) & = {var}_{p} (\sum_{k \in s} d_{k} x_{k}^{'} β) + \sum_{k \in U} σ_{k}^{2} d_{k} (1 - π_{k}) \\ = \sum_{k \in U} \sum_{l \in U} (π_{k l} - π_{k} π_{l}) d_{k} x_{k}^{'} β d_{l} x_{l}^{'} β + \sum_{k \in U} σ_{k}^{2} d_{k} (1 - π_{k}) . (2.7) \end{array}$

On note que l’expression de l’EQM anticipée de ${\hat{t}}_{y π}$ dépend des probabilités $π_{k l}$ qui sont généralement inconnues et difficiles à calculer pour des plans de sondage à probabilités inégales. Plusieurs approximations de ces probabilités ont été proposées dans la littérature permettant d’obtenir plusieurs estimateurs possibles de la variance de l’estimateur de HT. Cependant, Matei et Tillé (2005) montrent à travers une série de simulations que ces estimateurs sont presque équivalents et permettent de bien estimer l’expression exacte de la variance sous le plan de ${\hat{t}}_{y π} .$

En effet, une approximation de ${var}_{p} (\sum_{k \in s} d_{k} x_{k}^{'} β)$ peut être obtenue en considérant celle proposée par Hájek (1981) pour la variance de l’estimateur HT et qui est donnée par

$V_{Approx} = \sum_{k \in U} c_{k} {(d_{k} x_{k}^{'} β)}^{2} - \frac{1}{h} {(\sum_{k \in U} c_{k} d_{k} x_{k}^{'} β)}^{2} (2.8)$

où $h = \sum_{k \in U} c_{k}$ et $c_{k} = N π_{k} (1 - π_{k}) / (N - 1) .$ Cette dernière est obtenue à partir de l’approximation suivante des probabilités $π_{k l}$ (voir Deville et Tillé, 2005; Tirari, 2003) :

$π_{k l} - π_{k} π_{l} \approx {\begin{array}{l} c_{k} - \frac{c_{k}^{2}}{h} & si k = l \\ - \frac{c_{k} c_{l}}{h} & si k \neq l . \end{array} (2.9)$

Par conséquent, l’EQM anticipée de ${\hat{t}}_{y π}$ peut être approximée par

${\tilde{EQM}}_{p ξ} ({\hat{t}}_{y π}) = V_{Approx} + \sum_{k \in U} σ_{k}^{2} d_{k} (1 - π_{k}) . (2.10)$

Notons que pour des plans de sondage simples tels que le plan de Poisson ou le plan stratifié aléatoire simple, les probabilités conjointes peuvent être calculées exactement sans avoir recours à une approximation. Dans ce qui suit, nous allons nous baser sur l’EQM anticipée des estimateurs par calage et HT pour élaborer une nouvelle mesure de l’effet de l’utilisation des poids de calage.

ISSN : 1712-5685

Politique de rédaction

Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.

Présentation de textes pour la revue

Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).

Note de reconnaissance

Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.

Normes de service à la clientèle

Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.

Droit d'auteur

Publication autorisée par le ministre responsable de Statistique Canada.

L'utilisation de la présente publication est assujettie aux modalités de l'Entente de licence ouverte de Statistique Canada.

N° 12-001-X au catalogue

Périodicité : semi-annuel

Ottawa

Date de modification :: 2018-12-20

Sélection de la langue

Recherche et menus

Recherche

Critère de choix entre la pondération de calage et celle de sondage
Section 2. Estimateur du total d’une variable d’intérêt

2.1 Précision d’un estimateur linéaire du total

2.2 EQM anticipé de l’estimateur par calage

2.3 EQM anticipée de l’estimateur de HT

Critère de choix entre la pondération de calage et celle de sondage Section 2. Estimateur du total d’une variable d’intérêt

2.1 Précision d’un estimateur linéaire du total

2.2 EQM anticipé de l’estimateur par calage

2.3 EQM anticipée de l’estimateur de HT

Politique de rédaction

Présentation de textes pour la revue

Note de reconnaissance

Normes de service à la clientèle

Droit d'auteur

Critère de choix entre la pondération de calage et celle de sondage
Section 2. Estimateur du total d’une variable d’intérêt