4. Application aux estimateurs winsorisés
Cyril Favre Martinoz, David Haziza et Jean-François Beaumont
Précédent | Suivant
L’estimateur (3.5) peut être écrit sous d’autres formes, ce qui peut
parfois faciliter sa mise en oeuvre. Nous considérons la forme winsorisée.
Cette forme a été souvent étudiée dans la littérature. Tel que mentionné à la
section 1, on distingue la winsorisation standard de la winsorisation de
Dalén-Tambay.
La winsorisation standard consiste à réduire la valeur des unités
dépassant un certain seuil en tenant compte de leur poids. Soit
la valeur de la
variable
pour l’unité
après
winsorisation. On a
où
est le seuil de winsorisation. L’estimateur
winsorisé standard du total
est donné par
où
L’estimateur
(4.2) peut donc s’écrire sous la forme (3.1). Une écriture alternative consiste
à exprimer
comme une somme pondérée des
valeurs initiales au moyen de poids modifiés :
où
Si
(c’est-à-dire que l’unité
n’est pas influente), alors
Le poids d’une unité non influente
n’est donc pas modifié. Par contre, le poids modifié d’une unité influente est
inférieur à
et peut même être inférieur à 1. Il
convient de noter qu’une unité affichant une valeur
ne pose pas de problème particulier
puisque sa contribution au total estimé,
est nulle. Dans ce cas, on peut
assigner une valeur arbitraire au poids modifié
Dans le cas de la winsorisation de Dalén-Tambay, on définit les valeurs de
la variable d’intérêt après winsorisation par
Cela conduit à l’estimateur winsorisé du total
où
L’estimateur (4.5)
peut également s’écrire sous la forme (3.1). Comme pour
une écriture
alternative consiste à exprimer
comme une somme
pondérée des valeurs initiales au moyen de poids modifiés :
où
Comme pour l’estimateur
winsorisé standard, le poids d’une unité non-influente n’est pas modifié.
Contrairement à la winsorisation standard, la winsorisation de Dalén-Tambay
garantit que les poids modifiés ne peuvent être inférieurs à 1. Encore une
fois, une unité affichant une valeur
ne pose pas de problème particulier
puisque sa contribution au total estimé,
est nulle. Dans ce cas, on peut
assigner une valeur arbitraire au poids modifié
Les estimateur winsorisés standard et de Dalén-Tambay étant de la forme (3.1),
la constante optimale
qui minimise (3.2)
est obtenue en résolvant
ou encore
où
dans le cas de l’estimateur
et
dans le cas de l’estimateur
On montre dans l’annexe qu’une
solution à l’équation (4.7) existe sous les conditions suivantes :
-
-
La condition
1 est satisfaite pour la plupart des plans de sondage à un degré utilisés en
pratique tels que l’échantillonnage aléatoire simple stratifié et l’échantillonnage
de Poisson. La condition 2 implique que
doit être plus petit ou égal à
puisqu’un estimateur winsorisé
ne peut pas être plus grand que l’estimateur de Horvitz-Thompson par
construction. On s’attend en général à ce que la condition 2 soit satisfaite
dans la plupart des populations asymétriques que l’on retrouve dans les
enquêtes auprès des entreprises et dans les enquêtes sociales. On montre aussi
dans l’annexe que la solution à l’équation (4.7) est unique si les conditions
précédentes tiennent et si
pour
On y décrit brièvement un
algorithme pour trouver la solution à l’équation (4.7).
Il est à noter que bien que la valeur
diffère selon l’estimateur
winsorisé utilisé, les estimateurs robustes résultants sont identiques.
Autrement dit, on a
Afin de comparer l’influence de chacune des unités de la population par
rapport à l’estimateur (non-robuste) par dilatation,
et sa version
robuste (4.8), nous avons effectué une étude par simulation. Pour cela, nous
avons généré deux populations, chacune de taille
. La première population a été générée selon une loi normale
de moyenne 4 108 et d’écart type 1 500 alors que la deuxième a été
générée selon une loi log-normale de moyenne 4 108 et d’écart type 7 373.
De chaque population, nous avons tiré
échantillons selon deux plans de sondage : (i) le
plan aléatoire simple sans remise de taille
et (ii) le plan de Bernoulli de taille espérée
. Dans un premier temps, nous avons calculé le biais
conditionnel de l’estimateur de Horvitz-Thompson pour un sondage aléatoire
simple sans remise donné en (2.3) ainsi que celui dans le cas d’un plan de
Bernoulli donné en (2.4). Notons que le biais conditionnel de l’estimateur
Horvitz-Thompson ne requiert pas d’être approximé par simulation puisque toutes
les quantités de la population sont connues. Le biais conditionnel de l’estimateur
robuste donné en (3.3) associé à l’unité
a été approximé de la
manière suivante : parmi les 500 000 échantillons tirés, nous avons
identifié les échantillons contenant l’unité
Dans chacun de ces
échantillons, nous avons calculé l’erreur,
Finalement, nous
avons calculé la moyenne des valeurs de
sur tous les
échantillons contenant l’unité
Les figures 4.1 (a) et 4.1 (b) présentent les résultats dans le cas de
l’échantillonnage aléatoire simple sans remise pour les distributions normale
et log-normale, respectivement. Les figures 4.1 (c) et 4.1 (d) présentent les
résultats dans le cas de l’échantillonnage de Bernoulli pour les distributions
normale et log-normale, respectivement. Dans chacune des figures, la valeur
absolue du biais conditionnel de
est représentée en
fonction de la valeur absolue du biais conditionnel de
pour chaque unité
de la population. Les unités situées au dessus de la première bissectrice possèdent
un biais conditionnel associé à
en valeur absolue
supérieur au biais conditionnel associé à l’estimateur
en valeur absolue.
Dans un premier temps, nous discutons des résultats ayant trait à l’échantillonnage
aléatoire simple sans remise : le biais conditionnel de
en valeur absolue
présente un comportement similaire au biais conditionnel en valeur absolue de
ce qui indique que
l’influence des unités n’est pas modifiée de manière significative après avoir
robustifié l’estimateur par dilatation. Ce résultat n’est pas surprenant
puisque la population ne comprend pas d’unités fortement influentes. Dans le
cas de la loi log-normale, on constate que l’influence des valeurs affichant un
biais conditionnel associé à
élevé a été réduite
de manière significative. En revanche, on constate que, pour la majorité des
données, le biais conditionnel de
est légèrement plus
élevé que celui de
Nous discutons
maintenant les résultats ayant trait à l’échantillonnage de Bernoulli :
dans le cas de la population normale, on constate que l’influence de la grande
majorité des unités a été réduite puisque le biais conditionnel en valeur
absolue de
est
significativement moins élevé que le biais conditionnel en valeur absolue de
Dans le cas de la
loi log-normale, les résultats obtenus sont similaires à ceux obtenus dans le
cas de l’échantillonnage aléatoire simple sans remise pour la même
distribution.
Figure 4.1 Représentation de la
valeur absolue des biais conditionnels des estimateurs robuste et non robuste

Description de la figure 4.1
Précédent | Suivant