5. Estimation robuste de totaux par domaine
Cyril Favre Martinoz, David Haziza et Jean-François Beaumont
Précédent | Suivant
En pratique, on cherche la plupart du temps à obtenir des estimations au
niveau de domaines de la population ainsi qu’une estimation au niveau global.
Soit
le total de la
variable
dans le domaine
On va supposer que
les domaines forment une partition de la population telle que
où
est le nombre de
domaines. Soit
l’ensemble des
unités échantillonnées dans le domaine
L’estimateur par
dilatation de
est donné par
On a la relation de
cohérence suivante :
En présence de valeurs influentes, on peut appliquer une procédure robuste
séparément pour chacun des domaines à l’aide de la méthode décrite à la section
3, ce qui conduit à
estimateurs
robustes,
Un estimateur
robuste,
du total au niveau
de la population est simplement obtenu en agrégeant les estimateurs robustes
On a alors
La relation de
cohérence entre les estimations calculées au niveau des domaines et l’estimation
calculée au niveau de la population est donc satisfaite. Cependant, agréger
estimateurs
robustes, chacun souffrant d’un biais potentiel, peut engendrer un estimateur
robuste agrégé,
fortement biaisé.
Dans la grande majorité des cas, le biais de
sera négatif,
chacun des estimateurs
présentant un biais
négatif.
Une solution permettant d’éviter un estimateur avec un biais inacceptable
consiste d’abord à calculer l’estimateur robuste (4.8),
pour chacun des
domaines. Ensuite, on obtient indépendamment un estimateur robuste du total
dans la population,
donné par (4.8).
Cependant, dans ce cas, la relation de cohérence n’est plus nécessairement
satisfaite. Autrement dit, on aura,
en général. Il s’agira
alors de forcer la cohérence entre les estimations robustes dans les domaines
et l’estimation robuste agrégée au moyen d'une méthode qui s’apparente au
calage. Pour cela, on déterminera des estimations robustes finales
qui soient aussi
proches que possible des estimations robustes initiales
au sens d’une
certaine fonction de distance, et qui vérifient l’équation de calage
Dans le cas d’une fonction de distance de type khi-deux généralisé, on
cherche des estimations robustes finales,
telles que
est minimum
sous la contrainte (5.1). Le coefficient
dans l’expression précédente est un
poids que l’on assigne à l’estimation initiale dans le domaine
et s’interprète comme l’importance
de celui-ci dans le problème de minimisation. En utilisant la méthode des
multiplicateurs de Lagrange, on peut facilement obtenir une solution au
problème de minimisation ci-dessus. Cette solution est donnée par :
où
et
pour
Nous faisons les remarques suivantes : (i) Si
alors l’estimation
robuste finale
est identique à l’estimation
robuste initiale
Ainsi, si l’on
souhaite que l’estimation initiale dans le domaine
ne soit pas trop
modifiée, il suffit de lui associer une petite valeur de
Cet aspect sera également
illustré empiriquement à la section 6.2. (ii) Notons qu’en plus des estimations
robustes initiales au niveau des domaines,
pour
l’estimation
robuste initiale au niveau de la population,
peut être également
être modifiée. (iii) Si
(autrement dit, l’estimation
initiale robuste au niveau de la population n’est pas modifiée) et
pour
où
est une constante
strictement positive, l’expression (5.3) se simplifie pour donner
Dans ce cas,
les estimations initiales
sont toutes modifiées par le même
facteur
(iv) Comment fixer les
valeurs de
en pratique ? Il semble
naturel de privilégier le choix suivant :
où
désigne le coefficient de variation
(CV) estimé associé au domaine
Par exemple, dans une enquête
répétée, il sera possible d’utiliser le CV estimé observé à une occasion
précédente. Ce choix de
est motivé par le fait qu’on ne
cherchera pas à modifier de manière importante l’estimation initiale associée à
un domaine caractérisé par un petit CV estimé. Dans un tel domaine, il est
clair que le problème des valeurs influentes est moins criant et l’on s’attend
à ce que l’estimation robuste initiale
soit relativement proche du vrai
total
Autrement dit, l’estimateur robuste
devrait être peu biaisé et
relativement stable. Il est donc naturel de ne pas chercher à modifier l’estimation
robuste initiale de manière importante. (v) En (5.2), nous avons utilisé la
distance du khi-deux généralisée conduisant à la méthode linéaire. Dans la littérature
portant sur le calage (e.g., Deville et Särndal 1992), il existe plusieurs
autres méthodes de calage. Mentionnons la distance de Kullback-Leibler
conduisant à la méthode exponentielle et les méthodes logit et linéaire
tronquée. Les deux dernières méthodes permettent de spécifier des bornes
positives
et
telles que
Autrement dit, on s’assurera que le
rapport
se situe à l’intérieur des deux
limites
et
Notons qu’il est possible que la
procédure de calage conduise à
pour un certain
ce qui est contre-intuitif. Dans ce
cas, il suffit de rajouter la contrainte
pour
dans la procédure de calage. (vi)
Une écriture alternative consiste à exprimer
comme une somme pondérée des
valeurs initiales au moyen de poids modifiés :
où
et
est donné soit par (4.3) ou par (4.6).
On peut également écrire l’estimateur
comme une somme pondérée avec les
poids initiaux au moyen de valeurs modifiées :
où
et
est donné soit par (4.1) ou par (4.4).
(vii) On peut vouloir trouver les seuils de winsorisation,
tels que l’estimateur winsorisé
standard ou celui de Dalén-Tambay est égal à
On peut procéder de façon similaire
à la section 4 et on peut utiliser un algorithme semblable à celui donné dans l’annexe.
Une condition nécessaire pour l’existence d’une solution est que
(viii) La procédure de calage
proposée permet de traiter conjointement plusieurs partitions de la population.
Par exemple, on peut, à la fois, être intéressé à publier des estimations par
province et des estimations par industrie. Dans ce cas, il suffit de poser les
équations de calage suivantes dans la procédure de calage :
où
et
désigne le nombre de provinces et
le nombre d’industries, respectivement. De même, la méthode est applicable au
cas de plusieurs découpages de la population.
Précédent | Suivant