2. Rappels sur les indices de pauvreté traités ainsi que leur linéarisée
Eric Graf et Yves Tillé
Précédent | Suivant
Soit une population finie constituée de
unités
identifiables
Pour simplifier
l’écriture on désigne par la suite l’unité
par son indice
En pratique la
population
est une base de
sondage avec un taux de couverture acceptable de la population d’intérêt pour
laquelle on désire faire des inférences. On associe à chaque unité
une valeur
d’une
caractéristique d’intérêt (ici un revenu). Sans nuire à la généralité et pour
alléger les notations, on suppose que les
sont tous distincts
et triés par ordre de grandeur, donc
Dans les données
issues d’enquêtes par échantillonnage, il arrive fréquemment qu’il y ait des
doublons, c’est-à-dire plusieurs unités ayant la même valeur
, que ce soit dû à des arrondis ou à des
questions-fourchettes. Dans ces cas et pour cette étude, il suffit d’ajouter un
montant assez petit (c’est-à-dire négligeable) de la devise tiré au hasard selon
une loi uniforme pour que les données soient triables sans équivoque.
Soit un échantillon aléatoire
de taille
obtenu par un plan
d’échantillonnage
pour tout
Soit également
la probabilité
d’inclusion dans l’échantillon de l’unité
de
Soit aussi
le poids
d’échantillonnage et
un poids
d’estimation qui peut être égal à
mais qui peut aussi
être plus raffiné. Par exemple,
peut avoir été
obtenu suite à un calage (Deville et Särndal 1992) et refléter ainsi également
une correction de non-réponse.
Les estimateurs des indices de pauvreté et d’inégalité sont des
statistiques non linéaires qui ne peuvent pas s’exprimer comme des fonctions régulières
(c’est-à-dire continûment différentiables jusqu’à l’ordre deux) de totaux. En
effet, il s’agit de statistiques de rangs pour l’indice de Gini et de quantiles
pour les autres. Comme le relève Osier (2009), leur variance ne peut donc pas
être estimée par une linéarisation de Taylor mais nécessite le recours à la
méthode de linéarisation généralisée (Deville 2000; Demnati et Rao 2004; Osier
2009). Une alternative pour estimer la variance serait d’utiliser des
techniques de rééchantillonnage du genre bootstrap, mais dans le cadre des
données de l’enquête SILC, une préférence a été donnée à la technique de
linéarisation, du moins pour un certain nombre de pays participants. En effet,
les méthodes de rééchantillonnage nécessitent souvent davantage de ressources
humaines et machine. De plus, Eurostat collaborant avec une trentaine de pays
ayant des plans de sondage différents suivis d’éventuels corrections pour la
non-réponse et de calages sur des sources externes, il a semblé plus adéquat d’opter
pour une solution analytique pour estimer la variance. Par ailleurs, certains
pays pouvaient utiliser le logiciel SAS déjà existant POULPE (Ardilly et Osier
2007) pour produire les estimations nécessaires. Ce fut le cas pour les
premiers tests avec les données SILC suisses. On applique ici un mode
opératoire qui, comme le relèvent Antal, Langel et Tilllé (2011), concilie
l’approche introduite par Deville (2000) à celle de Demnati et Rao (2004). Les
deux approches utilisent la notion de fonction d’influence qui fut
développée initialement dans le domaine des statistiques robustes (Hampel
1974). Antal et coll. (2011) mentionnent aussi que l’on peut retrouver les
mêmes linéarisées en appliquant la méthode proposée par Graf (2011, 2013) qui
construit une variable linéarisée basée sur un développement en série de Taylor
par rapport aux indicatrices d’inclusion dans l’échantillon. Citons aussi le
travail de Kovačević et Binder (1997) où une
approche de linéarisation par les équations estimantes est développée.
Selon Deville (2000), on cerne l’influence de l’unité
sur un paramètre
d’intérêt
au niveau de la
population par une variation infinitésimale de l’importance attribuée à cette
unité. On exprime ledit paramètre comme une fonctionnelle
où
est une mesure
allouant une masse unité,
uniquement aux
points du continuum correspondant aux unités
La spécialisation
de la mesure générale
en une mesure
discrète fait passer la fonctionnelle
définie a priori sur un continuum, en une
fonctionnelle discrète, tout comme le total
est
défini par la somme des
sur notre
population finie. La fonction d’influence de
ou la variable
linéarisée, est
définie par
où
est la mesure de Dirac pour l’unité
En pratique on ne dispose que des
données connues sur un échantillon
et Deville (2000) obtient une
linéarisée
ou fonction d’influence empirique,
en : 1) évaluant la limite ci-dessus par calcul différentiel, 2)
remplaçant dans l’évaluation les quantités inconnues par les quantités
correspondantes estimées à partir de l’échantillon. Il justifie ce procédé en
montrant que :
Le résultat
central est que, sous des conditions asymptotiques décrites dans Deville (2000),
qui sont en principe satisfaites lorsque l’échantillon est « assez
grand », la variance du total estimé de la variable
est une approximation de la
variance de la statistique (complexe)
Le point de
départ de l’approche de Deville est donc le paramètre de population et non
l’estimateur qu’on se propose d’utiliser pour l’évaluation à partir de
l’échantillon. Dans les cas où l’estimateur utilisé découle naturellement de
l’expression du paramètre de population (comme par exemple le total
approché par l’estimateur de
Horvitz-Thompson), le procédé ne présente pas d’ambiguïté. Mais des imprécisions
surviennent si l’on estime le même total
en ayant recours à l’estimateur par
le quotient grâce à une variable auxiliaire
En effet, dans ce cas, l’approche
de Deville ne précisant pas la forme de l’estimateur du total à utiliser
fournira plutôt une fonction d’influence constante égale à 1, au lieu de faire
intervenir le quotient inconnu d’intérêt.
Une alternative qui évite ces problèmes est celle de Demnati-Rao, lorsque
rattachée au préalable au cadre de Deville comme cela est fait dans Antal
et coll. (2011). Ces auteurs présentent l’approche de Demnati-Rao comme
résultant du cadre de Deville lorsque la mesure
employée n’est pas
la mesure discrète définie sur
présentée
précédemment, mais plutôt la mesure suivante définie sur
l’échantillon :
où
est un poids. En définissant la
mesure sur
on se donne dans les faits comme
point de départ l’estimateur et non le paramètre; c’est le paramètre qui se
retrouve exprimé au départ sous la forme d’une fonctionnelle et non le paramètre
de population à estimer. Autrement dit, on se donne comme fonctionnelle celle
qui correspond à l’estimateur pour lequel on souhaite avoir une estimation de
la variance par linéarisation généralisée. On obtient ensuite la linéarisée en
fonction de cette fonctionnelle de la façon suivante :
Antal
et coll. (2011) observent que, dans la mesure où la fonctionnelle
apparaissant dans cette limite s’exprime comme une fonction explicite des
variables que sont les poids assignés par la mesure
aux observations, cette linéarisée
est en fait une fonction des dérivées partielles par rapport aux poids :
Antal
et coll. (2011) relèvent que, les linérarisées que nous rappelons dans la
suite, peuvent être obtenues par les deux approches. En effet, l’évaluation de
la limite à-la-Demnati-Rao ne mène pas nécessairement à l’estimation de la
variance suggérée par Deville (2000). L’approche pratique utilisée dans le
cadre de cet article pourrait donc être nommée comme étant celle de
Deville-Demnati-Rao en reconnaissance au cadre théorique fourni par Deville (2000)
et l’algorithmique pratique de ce cadre qu’apportent Demnati et Rao (2004).
Par cette méthode, on peut estimer la variance de
quel que soit le
plan d’échantillonnage, et donc obtenir un intervalle de confiance, en
substituant la variable linéarisée dans la formule de variance pour un total
correspondant au plan choisi. Sous un plan aléatoire simple sans remise,
l’estimateur de la variance d’un indice d’inégalité
est donné par
avec
Dans la
suite, dans le cadre de la mesure du revenu de la population, nous rappelons
les définitions empiriques des indices d’inégalité considérés ainsi que l’expression
de leurs linéarisées telles que nous les avons mises en œuvre.
2.1 L’indice de Gini
L’indice de Gini,
est compris entre 0
(en cas d’égalité totale, tous gagnent le même montant) et 1 (en cas
d’inégalité totale, c’est-à-dire un individu gagne tout et les autres rien).
L’indice
s’exprime en
fonction des revenus cumulés d’une certaine proportion d’individus les plus
pauvres. Si
est la variable
aléatoire représentant les revenus,
sa fonction de
densité et
sa fonction de
répartition, alors la courbe de Lorenz (Lorenz 1905) est définie par
L’indice de
Gini représente deux fois la surface comprise entre la courbe de Lorenz et la
ligne (diagonale
) de l’égalité parfaite (Figure
2.1). Il est donc défini par :
Description de la figure 2.1
Dans le cas d’une population finie, les
ne sont pas
aléatoires et l’indice de Gini est défini sur la population
par :
où les
ont été préalablement triés par
leur rang. Calculé sur un échantillon, on l’estime par :
où
est la somme cumulée des poids
étant le revenu total estimé pour
la population et
la taille estimée de cette
population. L’expression peut être simplifiée si tous les poids sont égaux et
valent tous
Notons que
la définition peut varier d’un facteur
selon les auteurs (Osier 2009;
Eurostat 2004b), mais cette subtilité est négligeable dès que la taille de
l’échantillon est assez grande.
Langel et Tillé (2012) ont fait une synthèse des différentes approches
permettant d’obtenir la même variable linéarisée de l’indice de Gini estimée
sur l’échantillon :
où
les
étant triés et distincts.
2.2 Le
Quintile Share Ratio (QSR ou
)
On trouve un bon tour d’horizon sur cet indice dans Langel et Tillé
(2012). Soient
et
les 80e et 20e percentiles de la fonction de répartition
Le QSR est le ratio
de la somme des revenus des 20 % les plus riches sur les 20 % les
plus pauvres. Dans le cas continu, on peut le définir ainsi :
où
serait une variable aléatoire
représentant les revenus. Dans le cas de populations finies, le QSR peut être
exprimé et estimé au niveau de l’échantillon en fonction des sommes partielles
où, suite
aux résultats obtenus par Langel et Tillé (2011), nous utiliserons la
définition suivante de la somme partielle, ce qui diffère très légèrement de la
définition officielle d’Eurostat (2004a),
avec
Pour obtenir
la linéarisée du QSR, il faut d’abord calculer la linéarisée de la somme
partielle (2.2) qui est donnée par :
où
avec
correspond à la première définition
du quantile d’une population finie dans l’article de Hyndman et Fan (1996).
Osier (2009) obtient une linéarisée qui dépend de la densité de la variable
Langel et Tillé (2011) ont cependant montré qu’une
simplification permet d’éluder le problème de l’estimation de cette densité
pour le QSR et qu’il n’est donc pas nécessaire de faire une approximation par
noyau de la densité des revenus comme le propose Osier (2009).
La fonction d’influence dépend de celles des sommes partielles :
En faisant
les substitutions nécessaires, on trouve que la linéarisée estimée sur la base
de l’échantillon vaut
2.3 Linéarisée d’un quantile
Avant de traiter les indices de pauvreté, il convient de donner quelques
détails sur la linéarisée d’un quantile d’ordre
Celle-ci s’estime
par :
où le
quantile pondéré peut être défini de manière similaire à la somme partielle
(2.2) et
est la fonction de densité des
revenus qui est discutée en détails à la section 3. Notons qu’Eurostat (2004a)
préconise la deuxième définition de Hyndman et Fan (1996). On pourrait discuter
de la définition d’Eurostat et utiliser une autre définition du quantile, par
exemple
où
ce qui correspond à la quatrième
définition selon Hyndman et Fan (1996). On estime alors le quantile sur
l’échantillon par
La linéarisée
du quantile dépend de la valeur de la fonction de densité des revenus en ce
quantile. Or, la vraie densité des revenus n’est pas connue et doit donc aussi
être estimée à partir de l’échantillon. Deville (2000) et Osier (2009)
proposent de l’estimer par noyau gaussien. On revient plus en détails sur le
problème de l’estimation de
dans la
section 3.
En plus du problème de l’estimation de la fonction de densité des revenus,
Croux (1998) montre que la fonction d’influence empirique de la médiane n’est
pas un estimateur convergent de la fonction d’influence (théorique)
correspondante. Pour une variable positive (cas des revenus), la fonction
d’influence empirique de la médiane (cas que Croux traite dans son article)
converge vers une distribution exponentielle dont l’espérance est la fonction
d’influence. Elle résiste mal aux valeurs extrêmes s’il y en a une trop grande
proportion. On dira qu’elle manque de robustesse, dans le sens que la valeur de
l’estimateur sur la base de l’échantillon peut s’éloigner fortement de la vraie
valeur sur la population en raison d’observations extrêmes (c’est-à-dire très
grandes par rapport aux autres) présentes dans l’échantillon (voir Hampel
(1974) pour les idées de base sur la robustesse en population infinie, et
Beaumont, Haziza et Ruiz-Gazen (2013) pour des réflexions récentes à ce sujet
dans le cadre d’échantillonnage en population finie).
2.4 La
médiane et le seuil de risque de pauvreté (ARPT)
Soit
la médiane estimée
sur l’échantillon, le seuil de pauvreté, noté ARPT (At Risk of Poverty
Threshold), est défini comme étant égal à 60 % de la médiane :
Il s’agit
d’une mesure absolue qui dépend de l’échelle. La linéarisée de l’ARPT est
proportionnelle à celle de la médiane :
2.5 Le
taux de risque de pauvreté (ARPR)
Le taux de risque de pauvreté (At Risk of Poverty Rate),
correspond à la
proportion de la population au-dessous du seuil de risque de pauvreté,
Il est indépendant
de l’échelle tout comme l’indice de Gini, le QSR et le RMPG (voir section 2.7).
La définition officielle d’Eurostat (2004a) de son estimation à partir de
l’échantillon est
La
linéarisée de l’ARPR est donnée par Osier (2009) :
Ici, la
fonction de densité des revenus doit être estimée en deux points : en la
médiane et en l’ARPT.
2.6 La
médiane des pauvres
Il s’agit du revenu médian des personnes en-dessous du seuil de risque de
pauvreté :
On l’estime selon
la même procédure que tout autre quantile dont la définition exacte peut
varier. La linéarisée de
(Osier 2009) dépend
de celle de l’ARPR :
L’estimation
de la densité des revenus intervient donc trois fois : en la médiane et en
l’ARPT dans
et en la médiane des pauvres
2.7 Le
Relative Median Poverty Gap (RMPG)
Il s’agit de la différence relative entre le seuil de risque de pauvreté
et la médiane des pauvres. On définit
si tous les
« pauvres » gagnent un montant égal au seuil et
si les pauvres ne
gagnent rien du tout. C’est une mesure de « combien pauvre sont les
pauvres » :
Son
estimation à partir de l’échantillon est donc déjà décrite. L’influence de
chaque observation sur le RMPG est donnée par Osier (2009) :
L’estimation
de la densité de la distribution des revenus intervient à quatre
reprises : une fois dans le calcul de
et trois fois dans celui de
Précédent | Suivant