Recherche par

4. Application aux estimateurs winsorisés

Cyril Favre Martinoz, David Haziza et Jean-François Beaumont

L’estimateur (3.5) peut être écrit sous d’autres formes, ce qui peut parfois faciliter sa mise en oeuvre. Nous considérons la forme winsorisée. Cette forme a été souvent étudiée dans la littérature. Tel que mentionné à la section 1, on distingue la winsorisation standard de la winsorisation de Dalén-Tambay.

La winsorisation standard consiste à réduire la valeur des unités dépassant un certain seuil en tenant compte de leur poids. Soit ${\tilde{y}}_{i}$ la valeur de la variable $y$ pour l’unité $i$ après winsorisation. On a

${\tilde{y}}_{i} = {\begin{array}{l} y_{i} & si d_{i} y_{i} \leq K \\ \frac{K}{d_{i}} & si d_{i} y_{i} > K \end{array} (4.1)$

où $K > 0$ est le seuil de winsorisation. L’estimateur winsorisé standard du total $t$ est donné par

$\begin{array}{l} {\hat{t}}_{s} & = \sum_{i \in S} d_{i} {\tilde{y}}_{i} (4.2) \\ = \hat{t} + Δ (K), \end{array}$

où

$Δ (K) = - \sum_{i \in S} \max (0, d_{i} y_{i} - K) .$

L’estimateur (4.2) peut donc s’écrire sous la forme (3.1). Une écriture alternative consiste à exprimer ${\hat{t}}_{s}$ comme une somme pondérée des valeurs initiales au moyen de poids modifiés :

${\hat{t}}_{s} = \sum_{i \in S} {\tilde{d}}_{i} y_{i},$

où

${\tilde{d}}_{i} = d_{i} \frac{min (y_{i}, \frac{K}{d_{i}})}{y_{i}} . (4.3)$

Si $min (y_{i}, K / d_{i}) = y_{i}$ (c’est-à-dire que l’unité $i$ n’est pas influente), alors ${\tilde{d}}_{i} = d_{i} .$ Le poids d’une unité non influente n’est donc pas modifié. Par contre, le poids modifié d’une unité influente est inférieur à $d_{i}$ et peut même être inférieur à 1. Il convient de noter qu’une unité affichant une valeur $y_{i} = 0$ ne pose pas de problème particulier puisque sa contribution au total estimé, ${\hat{t}}_{s},$ est nulle. Dans ce cas, on peut assigner une valeur arbitraire au poids modifié ${\tilde{d}}_{i} .$

Dans le cas de la winsorisation de Dalén-Tambay, on définit les valeurs de la variable d’intérêt après winsorisation par

${\tilde{y}}_{i} = {\begin{array}{l} y_{i} & si d_{i} y_{i} \leq K \\ \frac{K}{d_{i}} + \frac{1}{d_{i}} (y_{i} - \frac{K}{d_{i}}) & si d_{i} y_{i} > K \end{array} . (4.4)$

Cela conduit à l’estimateur winsorisé du total $t_{y} :$

$\begin{array}{l} {\hat{t}}_{DT} & = \sum_{i \in S} d_{i} {\tilde{y}}_{i} . (4.5) \\ = \hat{t} + Δ (K), \end{array}$

où

$Δ (K) = - \sum_{i \in S} \frac{(d_{i} - 1)}{d_{i}} \max (0, d_{i} y_{i} - K) .$

L’estimateur (4.5) peut également s’écrire sous la forme (3.1). Comme pour ${\hat{t}}_{s},$ une écriture alternative consiste à exprimer ${\hat{t}}_{DT}$ comme une somme pondérée des valeurs initiales au moyen de poids modifiés :

${\hat{t}}_{DT} = \sum_{i \in S} {\tilde{d}}_{i} y_{i},$

où

${\tilde{d}}_{i} = 1 + (d_{i} - 1) \frac{min (y_{i}, \frac{K}{d_{i}})}{y_{i}} . (4.6)$

Comme pour l’estimateur winsorisé standard, le poids d’une unité non-influente n’est pas modifié. Contrairement à la winsorisation standard, la winsorisation de Dalén-Tambay garantit que les poids modifiés ne peuvent être inférieurs à 1. Encore une fois, une unité affichant une valeur $y_{i} = 0$ ne pose pas de problème particulier puisque sa contribution au total estimé, ${\hat{t}}_{DT},$ est nulle. Dans ce cas, on peut assigner une valeur arbitraire au poids modifié ${\tilde{d}}_{i} .$

Les estimateur winsorisés standard et de Dalén-Tambay étant de la forme (3.1), la constante optimale $K_{opt}$ qui minimise (3.2) est obtenue en résolvant

$Δ (K) = - \frac{1}{2} ({\hat{B}}_{min} + {\hat{B}}_{max})$

ou encore

$\sum_{j \in S} a_{j} \max (0, d_{j} y_{j} - K) = \frac{{\hat{B}}_{min} + {\hat{B}}_{max}}{2}, (4.7)$

où $a_{j} = 1$ dans le cas de l’estimateur ${\hat{t}}_{s}$ et $a_{j} = (d_{j} - 1) / d_{j}$ dans le cas de l’estimateur ${\hat{t}}_{DT} .$ On montre dans l’annexe qu’une solution à l’équation (4.7) existe sous les conditions suivantes :

$π_{i j} - π_{i} π_{j} \leq 0; et$
$\frac{1}{2} ({\hat{B}}_{min} + {\hat{B}}_{max}) \geq 0.$

La condition 1 est satisfaite pour la plupart des plans de sondage à un degré utilisés en pratique tels que l’échantillonnage aléatoire simple stratifié et l’échantillonnage de Poisson. La condition 2 implique que ${\hat{t}}_{R}$ doit être plus petit ou égal à $\hat{t}$ puisqu’un estimateur winsorisé ne peut pas être plus grand que l’estimateur de Horvitz-Thompson par construction. On s’attend en général à ce que la condition 2 soit satisfaite dans la plupart des populations asymétriques que l’on retrouve dans les enquêtes auprès des entreprises et dans les enquêtes sociales. On montre aussi dans l’annexe que la solution à l’équation (4.7) est unique si les conditions précédentes tiennent et si $y_{i} \geq 0$ pour $i \in S .$ On y décrit brièvement un algorithme pour trouver la solution à l’équation (4.7).

Il est à noter que bien que la valeur $K_{opt}$ diffère selon l’estimateur winsorisé utilisé, les estimateurs robustes résultants sont identiques. Autrement dit, on a

${\hat{t}}_{s} (K_{opt}) = {\hat{t}}_{DT} (K_{opt}) = {\hat{t}}_{R} = \hat{t} - \frac{{\hat{B}}_{min} + {\hat{B}}_{max}}{2} . (4.8)$

Afin de comparer l’influence de chacune des unités de la population par rapport à l’estimateur (non-robuste) par dilatation, $\hat{t},$ et sa version robuste (4.8), nous avons effectué une étude par simulation. Pour cela, nous avons généré deux populations, chacune de taille $N = 100$ . La première population a été générée selon une loi normale de moyenne 4 108 et d’écart type 1 500 alors que la deuxième a été générée selon une loi log-normale de moyenne 4 108 et d’écart type 7 373. De chaque population, nous avons tiré $M = 500 000$ échantillons selon deux plans de sondage : (i) le plan aléatoire simple sans remise de taille $n = 10$ et (ii) le plan de Bernoulli de taille espérée $n = 10$ . Dans un premier temps, nous avons calculé le biais conditionnel de l’estimateur de Horvitz-Thompson pour un sondage aléatoire simple sans remise donné en (2.3) ainsi que celui dans le cas d’un plan de Bernoulli donné en (2.4). Notons que le biais conditionnel de l’estimateur Horvitz-Thompson ne requiert pas d’être approximé par simulation puisque toutes les quantités de la population sont connues. Le biais conditionnel de l’estimateur robuste donné en (3.3) associé à l’unité $i$ a été approximé de la manière suivante : parmi les 500 000 échantillons tirés, nous avons identifié les échantillons contenant l’unité $i .$ Dans chacun de ces échantillons, nous avons calculé l’erreur, ${\hat{t}}_{R} - t .$ Finalement, nous avons calculé la moyenne des valeurs de ${\hat{t}}_{R} - t$ sur tous les échantillons contenant l’unité $i .$

Les figures 4.1 (a) et 4.1 (b) présentent les résultats dans le cas de l’échantillonnage aléatoire simple sans remise pour les distributions normale et log-normale, respectivement. Les figures 4.1 (c) et 4.1 (d) présentent les résultats dans le cas de l’échantillonnage de Bernoulli pour les distributions normale et log-normale, respectivement. Dans chacune des figures, la valeur absolue du biais conditionnel de ${\hat{t}}_{R}$ est représentée en fonction de la valeur absolue du biais conditionnel de $\hat{t}$ pour chaque unité de la population. Les unités situées au dessus de la première bissectrice possèdent un biais conditionnel associé à ${\hat{t}}_{R}$ en valeur absolue supérieur au biais conditionnel associé à l’estimateur $\hat{t}$ en valeur absolue. Dans un premier temps, nous discutons des résultats ayant trait à l’échantillonnage aléatoire simple sans remise : le biais conditionnel de ${\hat{t}}_{R}$ en valeur absolue présente un comportement similaire au biais conditionnel en valeur absolue de $\hat{t},$ ce qui indique que l’influence des unités n’est pas modifiée de manière significative après avoir robustifié l’estimateur par dilatation. Ce résultat n’est pas surprenant puisque la population ne comprend pas d’unités fortement influentes. Dans le cas de la loi log-normale, on constate que l’influence des valeurs affichant un biais conditionnel associé à $\hat{t}$ élevé a été réduite de manière significative. En revanche, on constate que, pour la majorité des données, le biais conditionnel de ${\hat{t}}_{R}$ est légèrement plus élevé que celui de $\hat{t} .$ Nous discutons maintenant les résultats ayant trait à l’échantillonnage de Bernoulli : dans le cas de la population normale, on constate que l’influence de la grande majorité des unités a été réduite puisque le biais conditionnel en valeur absolue de ${\hat{t}}_{R}$ est significativement moins élevé que le biais conditionnel en valeur absolue de $\hat{t} .$ Dans le cas de la loi log-normale, les résultats obtenus sont similaires à ceux obtenus dans le cas de l’échantillonnage aléatoire simple sans remise pour la même distribution.

Figure 4.1 Représentation de la valeur absolue des biais conditionnels des estimateurs robuste et non robuste

Description de la figure 4.1

Précédent | Suivant

Date de modification :: 2015-11-27

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

4. Application aux estimateurs winsorisés