Recherche par

5. Estimation robuste de totaux par domaine

Cyril Favre Martinoz, David Haziza et Jean-François Beaumont

En pratique, on cherche la plupart du temps à obtenir des estimations au niveau de domaines de la population ainsi qu’une estimation au niveau global. Soit $t_{g} = \sum_{i \in U_{g}} y_{i}$ le total de la variable $y$ dans le domaine $g .$ On va supposer que les domaines forment une partition de la population telle que $t = \sum_{i \in U} y_{i} = \sum_{g = 1}^{G} t_{g},$ où $G$ est le nombre de domaines. Soit $S_{g}$ l’ensemble des unités échantillonnées dans le domaine $g .$ L’estimateur par dilatation de $t_{g}$ est donné par ${\hat{t}}_{g} = \sum_{i \in S_{g}} d_{i} y_{i} .$ On a la relation de cohérence suivante : $\sum_{g = 1}^{G} {\hat{t}}_{g} = \hat{t} .$

En présence de valeurs influentes, on peut appliquer une procédure robuste séparément pour chacun des domaines à l’aide de la méthode décrite à la section 3, ce qui conduit à $G$ estimateurs robustes, ${\hat{t}}_{R, g} .$ Un estimateur robuste, ${\hat{t}}_{R (agr)},$ du total au niveau de la population est simplement obtenu en agrégeant les estimateurs robustes ${\hat{t}}_{R, g} .$ On a alors ${\hat{t}}_{R (agr)} = \sum_{g = 1}^{G} {\hat{t}}_{R, g} .$ La relation de cohérence entre les estimations calculées au niveau des domaines et l’estimation calculée au niveau de la population est donc satisfaite. Cependant, agréger $G$ estimateurs robustes, chacun souffrant d’un biais potentiel, peut engendrer un estimateur robuste agrégé, ${\hat{t}}_{R (agr)},$ fortement biaisé. Dans la grande majorité des cas, le biais de ${\hat{t}}_{R (agr)}$ sera négatif, chacun des estimateurs ${\hat{t}}_{R, g}$ présentant un biais négatif.

Une solution permettant d’éviter un estimateur avec un biais inacceptable consiste d’abord à calculer l’estimateur robuste (4.8), ${\hat{t}}_{R, g},$ pour chacun des domaines. Ensuite, on obtient indépendamment un estimateur robuste du total $t$ dans la population, ${\hat{t}}_{R,0},$ donné par (4.8). Cependant, dans ce cas, la relation de cohérence n’est plus nécessairement satisfaite. Autrement dit, on aura, ${\hat{t}}_{R,0} \neq \sum_{g = 1}^{G} {\hat{t}}_{R, g},$ en général. Il s’agira alors de forcer la cohérence entre les estimations robustes dans les domaines et l’estimation robuste agrégée au moyen d'une méthode qui s’apparente au calage. Pour cela, on déterminera des estimations robustes finales ${\hat{t}}_{R, g}^{*}, g = 0, 1, .., G,$ qui soient aussi proches que possible des estimations robustes initiales ${\hat{t}}_{R, g},$ au sens d’une certaine fonction de distance, et qui vérifient l’équation de calage

$\sum_{g = 1}^{G} {\hat{t}}_{R, g}^{*} = {\hat{t}}_{R,0}^{*} . (5.1)$

Dans le cas d’une fonction de distance de type khi-deux généralisé, on cherche des estimations robustes finales, ${\hat{t}}_{R, g}^{*},$ telles que

$\sum_{g = 0}^{G} \frac{{{\hat{t}}_{R, g}^{*} - {\hat{t}}_{R, g}}^{2}}{2 q_{g} {\hat{t}}_{R, g}} (5.2)$

est minimum sous la contrainte (5.1). Le coefficient $q_{g}$ dans l’expression précédente est un poids que l’on assigne à l’estimation initiale dans le domaine $g, {\hat{t}}_{R, g},$ et s’interprète comme l’importance de celui-ci dans le problème de minimisation. En utilisant la méthode des multiplicateurs de Lagrange, on peut facilement obtenir une solution au problème de minimisation ci-dessus. Cette solution est donnée par :

${\hat{t}}_{R, g}^{*} = {\hat{t}}_{R, g} - \frac{\sum_{h = 0}^{G} δ_{h} {\hat{t}}_{R, h}}{\sum_{h = 0}^{G} q_{h} {\hat{t}}_{R, h}} δ_{g} q_{g} {\hat{t}}_{R, g}, (5.3)$

où $δ_{0} = - 1$ et $δ_{g} = 1,$ pour $g = 1, \dots, G .$

Nous faisons les remarques suivantes : (i) Si $q_{g} = 0,$ alors l’estimation robuste finale ${\hat{t}}_{R, g}^{*}$ est identique à l’estimation robuste initiale ${\hat{t}}_{R, g} .$ Ainsi, si l’on souhaite que l’estimation initiale dans le domaine $g,$ ne soit pas trop modifiée, il suffit de lui associer une petite valeur de $q_{g} .$ Cet aspect sera également illustré empiriquement à la section 6.2. (ii) Notons qu’en plus des estimations robustes initiales au niveau des domaines, ${\hat{t}}_{R, g},$ pour $g = 1, \dots, G,$ l’estimation robuste initiale au niveau de la population, ${\hat{t}}_{R,0},$ peut être également être modifiée. (iii) Si $q_{0} = 0$ (autrement dit, l’estimation initiale robuste au niveau de la population n’est pas modifiée) et $q_{g} = q$ pour $g = 1, \dots, G,$ où $q$ est une constante strictement positive, l’expression (5.3) se simplifie pour donner

${\hat{t}}_{R, g}^{*} = {\hat{t}}_{R, g} (\frac{{\hat{t}}_{R,0}}{{\hat{t}}_{R (agr)}}) . (5.4)$

Dans ce cas, les estimations initiales ${\hat{t}}_{R, g}$ sont toutes modifiées par le même facteur ${\hat{t}}_{R,0} / {\hat{t}}_{R (agr)} .$ (iv) Comment fixer les valeurs de $q_{g}$ en pratique ? Il semble naturel de privilégier le choix suivant :

$q_{g} = \hat{CV} ({\hat{t}}_{g}) / \sum_{g = 1}^{G} \hat{CV} ({\hat{t}}_{g}),$

où $\hat{CV} ({\hat{t}}_{g})$ désigne le coefficient de variation (CV) estimé associé au domaine $g .$ Par exemple, dans une enquête répétée, il sera possible d’utiliser le CV estimé observé à une occasion précédente. Ce choix de $q_{g}$ est motivé par le fait qu’on ne cherchera pas à modifier de manière importante l’estimation initiale associée à un domaine caractérisé par un petit CV estimé. Dans un tel domaine, il est clair que le problème des valeurs influentes est moins criant et l’on s’attend à ce que l’estimation robuste initiale ${\hat{t}}_{R, g}$ soit relativement proche du vrai total $t_{g} .$ Autrement dit, l’estimateur robuste ${\hat{t}}_{R, g}$ devrait être peu biaisé et relativement stable. Il est donc naturel de ne pas chercher à modifier l’estimation robuste initiale de manière importante. (v) En (5.2), nous avons utilisé la distance du khi-deux généralisée conduisant à la méthode linéaire. Dans la littérature portant sur le calage (e.g., Deville et Särndal 1992), il existe plusieurs autres méthodes de calage. Mentionnons la distance de Kullback-Leibler conduisant à la méthode exponentielle et les méthodes logit et linéaire tronquée. Les deux dernières méthodes permettent de spécifier des bornes positives $C_{1}$ et $C_{2}$ telles que $C_{1} \leq {\hat{t}}_{R, g}^{*} / {\hat{t}}_{R, g} \leq C_{2} .$ Autrement dit, on s’assurera que le rapport ${\hat{t}}_{R, g}^{*} / {\hat{t}}_{R, g}$ se situe à l’intérieur des deux limites $C_{1}$ et $C_{2} .$ Notons qu’il est possible que la procédure de calage conduise à ${\hat{t}}_{R, g}^{*} - {\hat{t}}_{g} \geq 0,$ pour un certain $g,$ ce qui est contre-intuitif. Dans ce cas, il suffit de rajouter la contrainte ${\hat{t}}_{R, g}^{*} \leq {\hat{t}}_{g}$ pour $g = 1, \dots, G,$ dans la procédure de calage. (vi) Une écriture alternative consiste à exprimer ${\hat{t}}_{R, g}^{*}$ comme une somme pondérée des valeurs initiales au moyen de poids modifiés :

${\hat{t}}_{R, g}^{*} = \sum_{i \in S_{g}} {\tilde{d}}_{i}^{*} y_{i},$

où

${\tilde{d}}_{i}^{*} = {\tilde{d}}_{i} (1 - δ_{g} q_{g} \frac{\sum_{h = 0}^{G} δ_{h} {\hat{t}}_{R, h}}{\sum_{h = 0}^{G} q_{h} {\hat{t}}_{R, h}})$

et ${\tilde{d}}_{i}$ est donné soit par (4.3) ou par (4.6). On peut également écrire l’estimateur ${\hat{t}}_{R, g}^{*}$ comme une somme pondérée avec les poids initiaux au moyen de valeurs modifiées :

${\hat{t}}_{R, g}^{*} = \sum_{i \in S_{g}} d_{i} {\tilde{y}}_{i}^{*},$

où

${\tilde{y}}_{i}^{*} = {\tilde{y}}_{i} (1 - δ_{g} q_{g} \frac{\sum_{h = 0}^{G} δ_{h} {\hat{t}}_{R, h}}{\sum_{h = 0}^{G} q_{h} {\hat{t}}_{R, h}}), i \in g$

et ${\tilde{y}}_{i}$ est donné soit par (4.1) ou par (4.4). (vii) On peut vouloir trouver les seuils de winsorisation, $K_{g}, g = 1, \dots, G,$ tels que l’estimateur winsorisé standard ou celui de Dalén-Tambay est égal à ${\hat{t}}_{R, g}^{*} .$ On peut procéder de façon similaire à la section 4 et on peut utiliser un algorithme semblable à celui donné dans l’annexe. Une condition nécessaire pour l’existence d’une solution est que ${\hat{t}}_{g} - {\hat{t}}_{R, g}^{*} \geq 0.$ (viii) La procédure de calage proposée permet de traiter conjointement plusieurs partitions de la population. Par exemple, on peut, à la fois, être intéressé à publier des estimations par province et des estimations par industrie. Dans ce cas, il suffit de poser les équations de calage suivantes dans la procédure de calage :

$\sum_{g = 1}^{G} {\hat{t}}_{R, g}^{*} = {\hat{t}}_{R,0}^{*},$

$\sum_{l = 1}^{L} {\hat{t}}_{R, l}^{*} = {\hat{t}}_{R,0}^{*},$

où $G$ et $L$ désigne le nombre de provinces et le nombre d’industries, respectivement. De même, la méthode est applicable au cas de plusieurs découpages de la population.

Précédent | Suivant

Date de modification :: 2015-11-27

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

5. Estimation robuste de totaux par domaine