Publications

Techniques d’enquête

Recherche par

3. L’estimation de la fonction de densité des revenus

Eric Graf et Yves Tillé

Dans une approche basée sur le plan (design based) en population finie, l’inférence se fait par rapport au plan de sondage $P (S)$ utilisé pour sélectionner l’échantillon $S$ dans la population $U$ de taille finie $N$ . Dans cette approche, seules les indicatrices d’inclusion dans l’échantillon sont aléatoires, toutes les autres grandeurs sont fixes. La fonction de répartition des revenus au niveau de la population est alors une fonction en escaliers : $F_{y} (x) = \sum_{_{k \in U}} 1_{y_{k} \leq x} / N$ et sa dérivée, la fonction de densité, n’existe pas à cause des discontinuités. Si l’on ne veut pas se placer dans une approche basée sur le modèle (model based) avec un modèle de super population pour justifier le terme de fonction de densité des revenus, il faut artificiellement lisser la fonction de répartition pour qu’elle devienne dérivable. C’est donc par abus de langage que nous nous autorisons ici à parler de fonction de densité. Avec cette volonté de lissage, Deville (2000) et Osier (2009) proposent d’estimer la fonction de densité des revenus par noyau gaussien :

$\begin{array}{l} K (u) & = & \frac{1}{h \sqrt{2 π}} e^{- u^{2} / 2}, u = \frac{x - y_{k}}{h} \\ {\hat{f}}_{1} (x) & = & \frac{1}{\hat{N}} \sum_{k \in S} w_{k} K (\frac{x - y_{k}}{h}) (3.1) \\ = & \frac{1}{h \sqrt{2 π}} \frac{1}{\hat{N}} \sum_{k \in S} w_{k} \exp [- \frac{{(x - y_{k})}^{2}}{2 h^{2}}] \end{array}$

où $h$ est la largeur de la bande qu’Osier estime par $\hat{h} = \hat{σ} {\hat{N}}^{- 0,2}$ et $\hat{σ}$ est l’écart-type estimé de la distribution empirique des revenus :

$\hat{σ} = \sqrt{\frac{\sum_{k \in S} w_{k} y_{k}^{2}}{\hat{N}} - {(\frac{\sum_{k \in S} w_{k} y_{k}}{\hat{N}})}^{2}} = \sqrt{\frac{\sum_{k \in S} w_{k} y_{k}^{2}}{\hat{N}} - {\bar{y}}_{w}^{2}} .$

Notons que cette estimation de $σ$ n’est pas robuste étant très sensible aux valeurs extrêmes de $y .$ Des données de revenus ont très souvent une queue de distribution étendue vers la droite avec des valeurs très élevées possibles, on parle de valeurs aberrantes représentatives (representative outliers) au sens de Chambers (1986) et Hulliger (1999). Comme le montrent nos simulations dans la section 4, cela peut fortement biaiser nos estimations de variance. Verma et Betti (2011) procèdent également par noyau rappelant que, selon Silverman (1986), le choix du noyau n’est pas crucial pour assurer la convergence de $\hat{f} (y)$ vers $f (y),$ alors que celui de la largeur de bande l’est. Ils utilisent une valeur conseillée par Silverman dans le cas de distributions avec un coefficient d’asymétrie positif, $h = 0,79({\hat{Q}}_{75} - {\hat{Q}}_{25}) {\hat{N}}^{- 0,2} .$ Dans leurs conclusions, ils relèvent que la méthode par linéarisation peut être problématique en raison d’irrégularités de la fonction de densité empirique. On ajoutera que ces problèmes sont d’autant plus préoccupants qu’il est fréquent, dans les données issues d’enquêtes, d’avoir des agglomérats d’observations à certaines valeurs (dues à des arrondis ou des questions-fourchettes), ce qui peut compliquer l’estimation de la densité. La suite de l’article décrit des solutions que nous avançons pour réduire le biais de la variance estimée.

3.1 Passer par le logarithme

Une solution qui, comme on le verra plus loin, donne de très bons résultats est de simplement passer par le logarithme pour estimer la densité en $x .$ Si l’on pose $v = \log (x + a),$ où $x$ est le revenu et $a$ un nombre réel positif par exemple égal à $(| \min_{k} (y_{k}) | + 1)$ dans le cas où l’on aurait des revenus négatifs ou nuls (en négligeant le fait que $a$ serait estimé), on a que

$F_{v} (v) = P (V \leq v) = P (\log (Y + a) \leq v) = P (Y \leq e^{v} - a) = F_{y} (e^{v} - a),$

où $V$ et $Y$ seraient de variables aléatoires. Donc,

$f_{v} (v) = \frac{d F_{v} (v)}{d v} = \frac{d F_{y} (e^{v} - a)}{d v} = f_{y} (e^{v} - a) e^{v} .$

Autrement dit $f_{v} (v) = f_{y} (x) (x + a),$ ce qui nous donne l’estimateur suivant de la densité en $x :$

${\hat{f}}_{2} (x) = \frac{{\hat{f}}_{v} (v)}{x + a} = \frac{{\hat{f}}_{y} (\log (x + a))}{x + a} . (3.2)$

L’estimation de la densité en $x$ de $Y$ peut donc s’évaluer en estimant celle du logarithme de la variable, divisée par la valeur de la variable au point qui nous intéresse. La propriété reste valable en population finie. Le fait de passer par le logarithme a l’avantage de diminuer l’effet levier exercé par les grandes valeurs des revenus dans le calcul de l’approximation de la densité par noyau. Les simulations montrent que cette méthode très simple réduit fortement le biais.

3.2 Plus proches voisins avec largeur de bande minimale

Deville (2000) esquisse une autre manière du type « plus proches voisins » (voir Silverman 1986) d’estimer la densité en utilisant le noyau

$K_{D} (u) = {\begin{array}{l} \frac{1}{b - a} & si a \leq u < b \\ 0 & sinon, \end{array},$

avec $u = y_{k}$ et où le choix de $a$ et $b,$ vérifiant $x \in [a, b],$ reste à déterminer et pourrait dépendre de $x .$ La distance $(b - a)$ représente la largeur de bande $h .$ L’estimation de la densité vaudrait alors

$\begin{array}{l} {\hat{f}}_{D} (x, a, b) & = & \frac{1}{\hat{N}} \sum_{k \in S} K_{D} (y_{k}) \\ = & \frac{1}{\hat{N}} \sum_{k \in S} w_{k} \frac{1}{b - a} 1_{y_{k} \in [a, b [} (3.3) \\ = & \frac{{\hat{F}}_{y} (b) - {\hat{F}}_{y} (a)}{b - a}, x \in [a, b [ \end{array}$

avec ${\hat{F}}_{y} (x) = \sum_{k \in S} w_{k} 1_{y_{k} \leq x} / \hat{N} .$

Notons que l’estimation de la densité (3.3) n’est pas une fonction continue et qu’elle ne serait pas très adaptée pour estimer des valeurs de densité à l’extrémité des queues de la distribution. Puisque nos travaux ne reposent pas trop sur les queues de la distribution, nous considérons cette approche comme une option.

Notre deuxième proposition d’estimation de la densité en $x$ s’inspire de l’idée ci-dessus. Elle est du type « plus proches voisins », mais impose aussi une largeur de bande minimale : notre méthode impose d’utiliser au minimum les $p$ plus proches observations du point $x$ tout en imposant une largeur de bande minimale $h (p) \geq h_{opt}$ où

$h_{opt} = \frac{0,9 \min (\hat{σ}, {\hat{Q}}_{75} - {\hat{Q}}_{25})}{1,34 \sqrt[5]{\hat{N}}}$

est la règle empirique (rule of thumb) de Silverman (1986) pour déterminer la largeur de la bande. Cette valeur est aussi utilisée par défaut par la fonction R density pour la largeur de la bande si rien n’est spécifié. Cette solution est plus robuste que (3.1) et évite les problèmes que l’on rencontre lorsque plusieurs valeurs $y_{k}$ sont très proches les unes des autres, ce qui arrive fréquemment parce que les personnes interrogées ont tendance à arrondir leur revenu.

Les valeurs $y_{k},$ $k = 1, ..., n,$ étant supposées ordonnées par leur rang, la largeur $h (p)$ de la fenêtre autour de $x$ est initialement déterminée par les $p$ plus proches observations, avec $p ≪ n .$ Pour les simulations exposées dans la section suivante, après différents essais, le $p$ initial a été fixé à 30. On impute comme densité en $x$ la densité estimée au point observé $y_{j}$ le plus proche inférieur ou égal à $x,$ c’est-à-dire $j = \max (k | y_{k} \leq x),$ $k = 1, ..., n .$ La largeur de la bande en $x$ dépendra en fait des $p_{j}$ plus proches observations autour de $y_{j},$ avec $p_{j} \geq p .$ On la désignera par $h (p_{j})$ dans la suite pour le rappeler. La densité n’est donc estimée qu’en des points observés sans qu’un lissage ou une interpolation soient menés entre les $\hat{f} (y_{j}) .$ L’algorithme pour estimer $\hat{f} (y_{j})$ est le suivant (voir aussi Figure 3.1) :

Figure 3.1

1. La largeur initiale de la fenêtre autour du point $y_{j},$ avec $p_{j} = p,$ est définie par :

$\begin{array}{l} h (p_{j}) = \frac{y_{u} + y_{u + 1}}{2} - \frac{y_{ℓ} + y_{ℓ - 1}}{2}; & u & = & {\begin{array}{l} j + p_{j} / 2 - 1 & si p_{j} est pair \\ j + ⌊ p_{j} / 2 ⌋ & si p_{j} est impair \end{array} \\ ℓ & = & j - ⌊ p_{j} / 2 ⌋ . \end{array}$

2. Si la largeur de fenêtre $h (p_{j})$ ainsi obtenue est inférieure à $h_{o p t}$ , on incrémente les deux bornes :

borne supérieure : $u \to u + 1,$ tant que $u < n,$

borne inférieure : $l \to l - 1,$ tant que $l > 1,$

ce qui implique $p_{j} \to p_{j} + 2,$ nbsp;sauf si $u = n$ ou $l = 1,$ on n’a alors plus le même nombre de points à gauche et à droite de $y_{j} .$

3. Répéter 2 jusqu’à ce que $h (p_{j}) \geq h_{opt} .$

4. La densité estimée en $x$ est alors donnée par

$\hat{f} (x) = \hat{f} (y_{j}) = {\begin{array}{l} \frac{p_{j}}{n h (p_{j})} & sans pondération, \\ \frac{\sum_{p_{j} plus proche s de y_{j}} w_{j}^{std}}{n h (p_{j})} & avec pondération, \end{array}$

avec les poids standardisés $w_{k}^{std} = w_{k} / \bar{w},$ $k = 1, ..., n .$

Le nombre d’observations $p_{j}$ prises en compte pour le calcul peut varier et dépend de la courbure locale de la fonction de répartition empirique. La condition $h (p_{j}) \geq h_{o p t}$ garantit une largeur de fenêtre minimale aux endroits où beaucoup d’observations seraient concentrées sur un petit intervalle. On rend la procédure encore plus solide en combinant cette approche avec la précédente, c’est-à-dire en estimant la densité du logarithme de la variable divisée par sa valeur (non logarithmisée) :

${\hat{f}}_{3} (x) = \frac{\hat{f} (log (x + a))}{x + a} . (3.4)$

3.3 Robustesse de la linéarisée

Comme mentionné plus haut, dans le cas de la médiane ou pour les autres quantiles, Croux (1998) relève que la fonction d’influence empirique ou linéarisée estimée à partir de l’échantillon n’est pas aussi robuste qu’il n’y paraît, même si l’on connaît la fonction de densité. Nous avons vérifié cela pour les données SILC utilisées dans les simulations modélisées avec une loi Bêta Généralisée de seconde espèce (GB2) grâce à la fonction profml.gb2 de R (Graf et Nedyalkova 2011). Sur de petits échantillons $(n \leq 100),$ le biais potentiel de la linéarisée engendré par un trop grand nombre de valeurs extrêmes peut aussi biaiser l’estimation de la variance calculée à partir de cette dernière. Pour de plus grands échantillons $(n \geq 1 000),$ un biais relatif maximal dans la variance estimée à l’aide de la linéarisée empirique vs. théorique peut atteindre jusqu’à 5 %. Il est cependant en-dessous du pourcent en valeur absolue dans les trois quarts des cas.

Précédent | Suivant

Date de modification :: 2017-09-20

Sélection de la langue

Recherche et menus

Recherche