Publications

Techniques d’enquête

Recherche par

2. Rappels sur les indices de pauvreté traités ainsi que leur linéarisée

Eric Graf et Yves Tillé

Soit une population finie $U$ constituée de $N$ unités identifiables $u_{1},..., u_{k},..., u_{N} .$ Pour simplifier l’écriture on désigne par la suite l’unité $u_{k}$ par son indice $k .$ En pratique la population $U$ est une base de sondage avec un taux de couverture acceptable de la population d’intérêt pour laquelle on désire faire des inférences. On associe à chaque unité $k$ une valeur $y_{k}$ d’une caractéristique d’intérêt (ici un revenu). Sans nuire à la généralité et pour alléger les notations, on suppose que les $y_{k}$ sont tous distincts et triés par ordre de grandeur, donc $y_{k} = y_{[k]} .$ Dans les données issues d’enquêtes par échantillonnage, il arrive fréquemment qu’il y ait des doublons, c’est-à-dire plusieurs unités ayant la même valeur $y$ , que ce soit dû à des arrondis ou à des questions-fourchettes. Dans ces cas et pour cette étude, il suffit d’ajouter un montant assez petit (c’est-à-dire négligeable) de la devise tiré au hasard selon une loi uniforme pour que les données soient triables sans équivoque.

Soit un échantillon aléatoire $S$ de taille $n$ obtenu par un plan d’échantillonnage $p (s) = P (S = s),$ pour tout $s \subset U .$ Soit également $π_{k} = P (k \in s) > 0$ la probabilité d’inclusion dans l’échantillon de l’unité $k$ de $U .$ Soit aussi $d_{k} = 1 / π_{k}$ le poids d’échantillonnage et $w_{k} = w_{k} (s)$ un poids d’estimation qui peut être égal à $d_{k}$ mais qui peut aussi être plus raffiné. Par exemple, $w_{k}$ peut avoir été obtenu suite à un calage (Deville et Särndal 1992) et refléter ainsi également une correction de non-réponse.

Les estimateurs des indices de pauvreté et d’inégalité sont des statistiques non linéaires qui ne peuvent pas s’exprimer comme des fonctions régulières (c’est-à-dire continûment différentiables jusqu’à l’ordre deux) de totaux. En effet, il s’agit de statistiques de rangs pour l’indice de Gini et de quantiles pour les autres. Comme le relève Osier (2009), leur variance ne peut donc pas être estimée par une linéarisation de Taylor mais nécessite le recours à la méthode de linéarisation généralisée (Deville 2000; Demnati et Rao 2004; Osier 2009). Une alternative pour estimer la variance serait d’utiliser des techniques de rééchantillonnage du genre bootstrap, mais dans le cadre des données de l’enquête SILC, une préférence a été donnée à la technique de linéarisation, du moins pour un certain nombre de pays participants. En effet, les méthodes de rééchantillonnage nécessitent souvent davantage de ressources humaines et machine. De plus, Eurostat collaborant avec une trentaine de pays ayant des plans de sondage différents suivis d’éventuels corrections pour la non-réponse et de calages sur des sources externes, il a semblé plus adéquat d’opter pour une solution analytique pour estimer la variance. Par ailleurs, certains pays pouvaient utiliser le logiciel SAS déjà existant POULPE (Ardilly et Osier 2007) pour produire les estimations nécessaires. Ce fut le cas pour les premiers tests avec les données SILC suisses. On applique ici un mode opératoire qui, comme le relèvent Antal, Langel et Tilllé (2011), concilie l’approche introduite par Deville (2000) à celle de Demnati et Rao (2004). Les deux approches utilisent la notion de fonction d’influence qui fut développée initialement dans le domaine des statistiques robustes (Hampel 1974). Antal et coll. (2011) mentionnent aussi que l’on peut retrouver les mêmes linéarisées en appliquant la méthode proposée par Graf (2011, 2013) qui construit une variable linéarisée basée sur un développement en série de Taylor par rapport aux indicatrices d’inclusion dans l’échantillon. Citons aussi le travail de Kovačević et Binder (1997) où une approche de linéarisation par les équations estimantes est développée.

Selon Deville (2000), on cerne l’influence de l’unité $k$ sur un paramètre d’intérêt $θ$ au niveau de la population par une variation infinitésimale de l’importance attribuée à cette unité. On exprime ledit paramètre comme une fonctionnelle $θ = T (M),$ où $M$ est une mesure allouant une masse unité, $M (k) = M_{k} = 1,$ uniquement aux points du continuum correspondant aux unités $k \in U .$ La spécialisation de la mesure générale $M$ en une mesure discrète fait passer la fonctionnelle $T,$ définie a priori sur un continuum, en une fonctionnelle discrète, tout comme le total $Y$ est défini par la somme des $y_{k}$ sur notre population finie. La fonction d’influence de $T,$ ou la variable linéarisée, est définie par

$I {[T (M)]}_{k} = z_{k} = \lim_{t \to 0} \frac{T (M + t δ_{k}) - T (M)}{t}, pour tout k \in U,$

où $δ_{k}$ est la mesure de Dirac pour l’unité $k (δ_{k} (i) = 1 si i = k et 0 sinon) .$ En pratique on ne dispose que des données connues sur un échantillon $S$ et Deville (2000) obtient une linéarisée ${\hat{z}}_{k}$ ou fonction d’influence empirique, en : 1) évaluant la limite ci-dessus par calcul différentiel, 2) remplaçant dans l’évaluation les quantités inconnues par les quantités correspondantes estimées à partir de l’échantillon. Il justifie ce procédé en montrant que :

$T (\hat{M}) - T (M) \approx (\sum_{k \in S} w_{k} z_{k} - \sum_{k \in U} z_{k}) .$

Le résultat central est que, sous des conditions asymptotiques décrites dans Deville (2000), qui sont en principe satisfaites lorsque l’échantillon est « assez grand », la variance du total estimé de la variable ${\hat{z}}_{k}$ est une approximation de la variance de la statistique (complexe) $\hat{θ} :$

$var [\sum_{k \in s} {\hat{z}}_{k} w_{k}] \approx var (\hat{θ}) .$

Le point de départ de l’approche de Deville est donc le paramètre de population et non l’estimateur qu’on se propose d’utiliser pour l’évaluation à partir de l’échantillon. Dans les cas où l’estimateur utilisé découle naturellement de l’expression du paramètre de population (comme par exemple le total $Y$ approché par l’estimateur de Horvitz-Thompson), le procédé ne présente pas d’ambiguïté. Mais des imprécisions surviennent si l’on estime le même total $Y$ en ayant recours à l’estimateur par le quotient grâce à une variable auxiliaire $x .$ En effet, dans ce cas, l’approche de Deville ne précisant pas la forme de l’estimateur du total à utiliser fournira plutôt une fonction d’influence constante égale à 1, au lieu de faire intervenir le quotient inconnu d’intérêt.

Une alternative qui évite ces problèmes est celle de Demnati-Rao, lorsque rattachée au préalable au cadre de Deville comme cela est fait dans Antal et coll. (2011). Ces auteurs présentent l’approche de Demnati-Rao comme résultant du cadre de Deville lorsque la mesure $M$ employée n’est pas la mesure discrète définie sur $U$ présentée précédemment, mais plutôt la mesure suivante définie sur $S,$ l’échantillon :

$\hat{M} (k) = w_{k}, k \in S$

où $w_{k}$ est un poids. En définissant la mesure sur $S,$ on se donne dans les faits comme point de départ l’estimateur et non le paramètre; c’est le paramètre qui se retrouve exprimé au départ sous la forme d’une fonctionnelle et non le paramètre de population à estimer. Autrement dit, on se donne comme fonctionnelle celle qui correspond à l’estimateur pour lequel on souhaite avoir une estimation de la variance par linéarisation généralisée. On obtient ensuite la linéarisée en fonction de cette fonctionnelle de la façon suivante :

$I {[T (\hat{M})]}_{k} = {\hat{z}}_{k} = \lim_{t \to 0} \frac{T (\hat{M} + t δ_{k}) - T (\hat{M})}{t}, pour tout k \in S .$

Antal et coll. (2011) observent que, dans la mesure où la fonctionnelle apparaissant dans cette limite s’exprime comme une fonction explicite des variables que sont les poids assignés par la mesure $\hat{M}$ aux observations, cette linéarisée est en fait une fonction des dérivées partielles par rapport aux poids :

$I {[T (\hat{M})]}_{k} = \frac{\partial T (\hat{M})}{\partial w_{k}} .$

Antal et coll. (2011) relèvent que, les linérarisées que nous rappelons dans la suite, peuvent être obtenues par les deux approches. En effet, l’évaluation de la limite à-la-Demnati-Rao ne mène pas nécessairement à l’estimation de la variance suggérée par Deville (2000). L’approche pratique utilisée dans le cadre de cet article pourrait donc être nommée comme étant celle de Deville-Demnati-Rao en reconnaissance au cadre théorique fourni par Deville (2000) et l’algorithmique pratique de ce cadre qu’apportent Demnati et Rao (2004).

Par cette méthode, on peut estimer la variance de $\hat{θ}$ quel que soit le plan d’échantillonnage, et donc obtenir un intervalle de confiance, en substituant la variable linéarisée dans la formule de variance pour un total correspondant au plan choisi. Sous un plan aléatoire simple sans remise, l’estimateur de la variance d’un indice d’inégalité $\hat{θ}$ est donné par

${\hat{var}}_{lin} [\hat{θ}] = \frac{N (N - n)}{n} \frac{1}{n - 1} \sum_{k \in S} {({\hat{z}}_{k} - \bar{z})}^{2}, (2.1)$

avec

$\bar{z} = n^{- 1} \sum_{k \in S} {\hat{z}}_{k} .$

Dans la suite, dans le cadre de la mesure du revenu de la population, nous rappelons les définitions empiriques des indices d’inégalité considérés ainsi que l’expression de leurs linéarisées telles que nous les avons mises en œuvre.

2.1 L’indice de Gini

L’indice de Gini, $G,$ est compris entre 0 (en cas d’égalité totale, tous gagnent le même montant) et 1 (en cas d’inégalité totale, c’est-à-dire un individu gagne tout et les autres rien). L’indice $G$ s’exprime en fonction des revenus cumulés d’une certaine proportion d’individus les plus pauvres. Si $Y$ est la variable aléatoire représentant les revenus, $f (y)$ sa fonction de densité et $F (y)$ sa fonction de répartition, alors la courbe de Lorenz (Lorenz 1905) est définie par

$L (α) = \frac{\int_{0}^{F^{- 1} (α)} y f (y) d y}{\int_{0}^{\infty} y f (y) d y} = \frac{1}{E (Y)} \int_{0}^{α} F^{- 1} (u) d u .$

L’indice de Gini représente deux fois la surface comprise entre la courbe de Lorenz et la ligne (diagonale $f_{e g} (x) = x$ ) de l’égalité parfaite (Figure 2.1). Il est donc défini par :

$G = 2 \int_{0}^{1} [α - L (α)] d α .$

Description de la figure 2.1

Dans le cas d’une population finie, les $y_{k}$ ne sont pas aléatoires et l’indice de Gini est défini sur la population $U$ par :

$G = \frac{2 \sum_{k \in U} k y_{k}}{N \sum_{k \in U} y_{k}} - \frac{N + 1}{N},$

où les $y_{k}$ ont été préalablement triés par leur rang. Calculé sur un échantillon, on l’estime par :

$\begin{array}{l} \hat{G} & = & \frac{2}{\hat{N} \hat{Y}} \sum_{k \in S} w_{k} {\hat{N}}_{k} y_{k} - (1 + \frac{1}{\hat{N} \hat{Y}} \sum_{k \in S} w_{k}^{2} y_{k}) \\ = & \frac{\sum_{k \in S} \sum_{ℓ \in S} w_{k} w_{ℓ} | y_{k} - y_{ℓ} |}{2 \hat{N} \hat{Y}}, \end{array}$

où ${\hat{N}}_{k} = \sum_{ℓ \in S} w_{ℓ} 1_{[y_{ℓ} \leq y_{k}]}$ est la somme cumulée des poids $w_{k},$ $\hat{Y} = \sum_{k \in S} w_{k} y_{k}$ étant le revenu total estimé pour la population et $\hat{N} = \sum_{k \in S} w_{k}$ la taille estimée de cette population. L’expression peut être simplifiée si tous les poids sont égaux et valent tous $N / n :$

$\hat{G} = \frac{2 \sum_{k \in S} k y_{k}}{n \sum_{k \in S} y_{k}} - \frac{n + 1}{n} .$

Notons que la définition peut varier d’un facteur $n / (n - 1)$ selon les auteurs (Osier 2009; Eurostat 2004b), mais cette subtilité est négligeable dès que la taille de l’échantillon est assez grande.

Langel et Tillé (2012) ont fait une synthèse des différentes approches permettant d’obtenir la même variable linéarisée de l’indice de Gini estimée sur l’échantillon :

${\hat{z}}_{k}^{GINI} = \frac{1}{\hat{N} \hat{Y}} [2 {\hat{N}}_{k} (y_{k} - {\hat{\bar{Y}}}_{k}) + \hat{Y} - \hat{N} y_{k} - \hat{G} (\hat{Y} + y_{k} \hat{N})],$

où ${\hat{\bar{Y}}}_{k} = \sum_{ℓ = 1}^{k} w_{ℓ} y_{ℓ} / {\hat{N}}_{k},$ les $y_{ℓ}$ étant triés et distincts.

2.2 Le Quintile Share Ratio (QSR ou $S_{80} / S_{20}$ )

On trouve un bon tour d’horizon sur cet indice dans Langel et Tillé (2012). Soient $q_{80}$ et $q_{20}$ les 80^e et 20^e percentiles de la fonction de répartition $F (y) .$ Le QSR est le ratio de la somme des revenus des 20 % les plus riches sur les 20 % les plus pauvres. Dans le cas continu, on peut le définir ainsi :

$QSR = \frac{E (Y | Y > q_{80})}{E (Y | Y < q_{20})} = \frac{1 - L (0,8)}{L (0,2)},$

où $Y$ serait une variable aléatoire représentant les revenus. Dans le cas de populations finies, le QSR peut être exprimé et estimé au niveau de l’échantillon en fonction des sommes partielles

$\hat{QSR} = \frac{\hat{Y} - {\hat{Y}}_{0,8}}{{\hat{Y}}_{0,2}},$

où, suite aux résultats obtenus par Langel et Tillé (2011), nous utiliserons la définition suivante de la somme partielle, ce qui diffère très légèrement de la définition officielle d’Eurostat (2004a),

${\hat{Y}}_{α} = \sum_{k \in S} w_{k} y_{k} H (\frac{α \hat{N} - {\hat{N}}_{k - 1}}{w_{k}}), (2.2)$

avec

$H (x) = {\begin{array}{l} 0 & si x < 0 \\ x & si 0 \leq x < 1 \\ 1 & si x \geq 1. \end{array}$

Pour obtenir la linéarisée du QSR, il faut d’abord calculer la linéarisée de la somme partielle (2.2) qui est donnée par :

$I {(Y_{α})}_{k} = y_{k} H (α N - k + 1) + [α - 1_{[y_{k} < Q_{α}]}] Q_{α},$

où $Q_{α} = y_{i},$ avec ${\hat{N}}_{i - 1} < α \hat{N} \leq {\hat{N}}_{i},$ correspond à la première définition du quantile d’une population finie dans l’article de Hyndman et Fan (1996). Osier (2009) obtient une linéarisée qui dépend de la densité de la variable $Y .$ Langel et Tillé (2011) ont cependant montré qu’une simplification permet d’éluder le problème de l’estimation de cette densité pour le QSR et qu’il n’est donc pas nécessaire de faire une approximation par noyau de la densité des revenus comme le propose Osier (2009).

La fonction d’influence dépend de celles des sommes partielles :

$I {(QSR)}_{k} = z_{k}^{QSR} = \frac{y_{k} - I (Y_{0,8})}{Y_{0,2}} - \frac{(Y - Y_{0,8}) I (Y_{0,2})}{Y_{0,2}^{2}} .$

En faisant les substitutions nécessaires, on trouve que la linéarisée estimée sur la base de l’échantillon vaut

$\begin{array}{l} {\hat{z}}_{k}^{QSR} & = & \frac{y_{k} - {y_{k} H (\frac{0,8 \hat{N} - {\hat{N}}_{k - 1}}{w_{k}}) + {\hat{Q}}_{0,8} [0,8 - 1_{[y_{k} < {\hat{Q}}_{0,8}]}]}}{{\hat{Y}}_{0,2}} (2.3) \\ - & \frac{(\hat{Y} - {\hat{Y}}_{0,8}) {y_{k} H (\frac{0,2 \hat{N} - {\hat{N}}_{k - 1}}{w_{k}}) + {\hat{Q}}_{0,2} [0,2 - 1_{[y_{k} < {\hat{Q}}_{0,2}]}]}}{{\hat{Y}}_{0,2}^{2}} . \end{array}$

2.3 Linéarisée d’un quantile

Avant de traiter les indices de pauvreté, il convient de donner quelques détails sur la linéarisée d’un quantile d’ordre $α .$ Celle-ci s’estime par :

${\hat{z}}_{k}^{Q_{α}} = - \frac{1}{f ({\hat{Q}}_{α})} \frac{1}{\hat{N}} [1_{[y_{k} \leq {\hat{Q}}_{α}]} - α],$

où le quantile pondéré peut être défini de manière similaire à la somme partielle (2.2) et $f (\cdot)$ est la fonction de densité des revenus qui est discutée en détails à la section 3. Notons qu’Eurostat (2004a) préconise la deuxième définition de Hyndman et Fan (1996). On pourrait discuter de la définition d’Eurostat et utiliser une autre définition du quantile, par exemple $Q_{α} = y_{k - 1} + (y_{k} - y_{k - 1}) [α N - (k - 1)]$ où $α N < k \leq α N + 1,$ ce qui correspond à la quatrième définition selon Hyndman et Fan (1996). On estime alors le quantile sur l’échantillon par

${\hat{Q}}_{α} = y_{k - 1} + (y_{k} - y_{k - 1}) (\frac{α \hat{N} - {\hat{N}}_{k - 1}}{w_{k}}) .$

La linéarisée du quantile dépend de la valeur de la fonction de densité des revenus en ce quantile. Or, la vraie densité des revenus n’est pas connue et doit donc aussi être estimée à partir de l’échantillon. Deville (2000) et Osier (2009) proposent de l’estimer par noyau gaussien. On revient plus en détails sur le problème de l’estimation de $f$ dans la section 3.

En plus du problème de l’estimation de la fonction de densité des revenus, Croux (1998) montre que la fonction d’influence empirique de la médiane n’est pas un estimateur convergent de la fonction d’influence (théorique) correspondante. Pour une variable positive (cas des revenus), la fonction d’influence empirique de la médiane (cas que Croux traite dans son article) converge vers une distribution exponentielle dont l’espérance est la fonction d’influence. Elle résiste mal aux valeurs extrêmes s’il y en a une trop grande proportion. On dira qu’elle manque de robustesse, dans le sens que la valeur de l’estimateur sur la base de l’échantillon peut s’éloigner fortement de la vraie valeur sur la population en raison d’observations extrêmes (c’est-à-dire très grandes par rapport aux autres) présentes dans l’échantillon (voir Hampel (1974) pour les idées de base sur la robustesse en population infinie, et Beaumont, Haziza et Ruiz-Gazen (2013) pour des réflexions récentes à ce sujet dans le cadre d’échantillonnage en population finie).

2.4 La médiane et le seuil de risque de pauvreté (ARPT)

Soit $\hat{m} = {\hat{Q}}_{0,5}$ la médiane estimée sur l’échantillon, le seuil de pauvreté, noté ARPT (At Risk of Poverty Threshold), est défini comme étant égal à 60 % de la médiane :

$\begin{array}{l} ARPT & = & 0,6 F^{- 1} (0,5) \\ \hat{ARPT} & = & 0,6 {\hat{Q}}_{0,5} = 0,6 \hat{m} . \end{array}$

Il s’agit d’une mesure absolue qui dépend de l’échelle. La linéarisée de l’ARPT est proportionnelle à celle de la médiane :

${\hat{z}}_{k}^{ARPT} = I {(ARPT)}_{k} = 0,6 I {(MED)}_{k} = - \frac{0,6}{f (\hat{m})} \frac{1}{\hat{N}} [1_{[y_{k} \leq \hat{m}]} - 0,5] .$

2.5 Le taux de risque de pauvreté (ARPR)

Le taux de risque de pauvreté (At Risk of Poverty Rate), $ARPR \in [0, 1],$ correspond à la proportion de la population au-dessous du seuil de risque de pauvreté, $ARPR = F (ARPT) .$ Il est indépendant de l’échelle tout comme l’indice de Gini, le QSR et le RMPG (voir section 2.7). La définition officielle d’Eurostat (2004a) de son estimation à partir de l’échantillon est

$\hat{ARPR} = \frac{\sum_{y_{k} < \hat{ARPT}} w_{k}}{\hat{N}} .$

La linéarisée de l’ARPR est donnée par Osier (2009) :

$\begin{array}{l} {\hat{z}}_{k}^{ARPR} & = & \frac{1}{\hat{N}} (1_{[y_{k} \leq \hat{ARPT}]} - \hat{ARPR}) - \frac{f (\hat{ARPT})}{f (\hat{m})} \frac{0,6}{\hat{N}} (1_{[y_{k} \leq \hat{m}]} - 0,5) \\ = & \frac{1}{\hat{N}} (1_{[y_{k} \leq \hat{ARPT}]} - \hat{ARPR}) + f (\hat{ARPT}) {\hat{z}}_{k}^{ARPT} . \end{array}$

Ici, la fonction de densité des revenus doit être estimée en deux points : en la médiane et en l’ARPT.

2.6 La médiane des pauvres

Il s’agit du revenu médian des personnes en-dessous du seuil de risque de pauvreté : $m_{p} = F^{- 1} (1 / 2 F (ARPT)) .$ On l’estime selon la même procédure que tout autre quantile dont la définition exacte peut varier. La linéarisée de $m_{p}$ (Osier 2009) dépend de celle de l’ARPR :

${\hat{z}}_{k}^{m_{p}} = \frac{1}{f ({\hat{m}}_{p})} \frac{{\hat{z}}_{k}^{ARPR}}{2} - \frac{1}{\hat{N}} (1_{[y_{k} \leq {\hat{m}}_{p}]} - F ({\hat{m}}_{p})) .$

L’estimation de la densité des revenus intervient donc trois fois : en la médiane et en l’ARPT dans ${\hat{z}}_{k}^{ARPR}$ et en la médiane des pauvres $m_{p} .$

2.7 Le Relative Median Poverty Gap (RMPG)

Il s’agit de la différence relative entre le seuil de risque de pauvreté et la médiane des pauvres. On définit $RMPG = 0$ si tous les « pauvres » gagnent un montant égal au seuil et $RMPG = 1$ si les pauvres ne gagnent rien du tout. C’est une mesure de « combien pauvre sont les pauvres » :

$RMPG = \frac{ARPT - m_{p}}{ARPT} .$

Son estimation à partir de l’échantillon est donc déjà décrite. L’influence de chaque observation sur le RMPG est donnée par Osier (2009) :

${\hat{z}}_{k}^{RMPG} = \frac{{\hat{m}}_{p} {\hat{z}}_{k}^{ARPT} - \hat{ARPT} {\hat{z}}_{k}^{m_{p}}}{{\hat{ARPT}}^{2}} .$

L’estimation de la densité de la distribution des revenus intervient à quatre reprises : une fois dans le calcul de ${\hat{z}}_{k}^{ARPT}$ et trois fois dans celui de ${\hat{z}}_{k}^{m_{p}} .$

Précédent | Suivant

Date de modification :: 2017-09-20

Sélection de la langue

Recherche et menus

Recherche