Linéarisation contre Bootstrap pour estimer la variance de l’évolution de l’indice de Gini
Section 3. Le cas de deux échantillons
3.1 Notation et estimation composite
Supposons
maintenant que deux variables
et
sont mesurées sur la population
et
soit
les
valeurs prises par
sur
les unités de la population. Les variables
et
peuvent par exemple correspondre à une
caractéristique d’intérêt observée à deux périodes différentes
et
Nous considérons l’estimation de paramètres
qui
peuvent s’écrire sous la forme d’une fonctionnelle
où
Par
exemple, le cas linéaire
correspond à la différence entre les totaux
et
Soit
et
deux échantillons de tailles
et
respectivement, tirés de la même population
selon un plan d’échantillonnage bidimensionnel
(voir Goga,
2003). La variable
est
mesurée sur
tandis que la variable
est
mesurée sur
L’insertion des estimateurs fondés sur
l’échantillon
dans
donne l’estimateur par substitution
Contrairement au cas d’un seul échantillon,
plusieurs estimateurs
sont possibles. Dans la suite de l’exposé,
nous nous concentrons sur la classe générale d’estimateurs composites introduite par Goga, Deville et Ruiz-Gazen
(2009). Nous notons
et
Pour
nous notons
le
nombre prévu de tirages de l’unité
dans
et
où
Les
estimateurs composites de
et
sont
où
et
sont des constantes connues. Le
choix
mène à l’estimateur
« intersection » avec
et
où seul est utilisé
l’échantillon « intersection »
(correspondant à l’intersection).
Si l’on
estime le paramètre
l’estimateur composite est donné par
où
et
Il peut se réécrire sous la
forme
où
La variance de l’estimateur composite
est
Trouver le vecteur
qui minimise la variance en (3.4)
mène à l’estimateur composite optimal (Goga,
Deville et Ruiz-Gazen, 2009, section 3.6). Notons qu’il ne s’agit
pas d’un estimateur proprement dit, puisqu’il dépend de quantités inconnues qui
doivent être estimées en pratique. Cependant, il représente une référence utile
que nous utiliserons pour évaluer des estimateurs composites plus simples.
Un estimateur
de variance s’obtient en substituant dans (3.4) un estimateur de la matrice de
variance-covariance. L’obtention des estimateurs de variance est décrite en
détail aux sections 3.1.1 et 3.1.2 pour deux exemples de plans
d’échantillonnage bidimensionnels.
3.1.1
Plan SI bidimensionnel
Le
plan SI bidimensionnel (SI2) de taille fixée
attribue des probabilités égales à tous les
pour lesquels les sous-échantillons associés
et
possèdent les tailles requises
et
voir Goga
(2003) ainsi que Qualité et Tillé (2008). Le plan SI2 a pour propriété
intéressante que les échantillons marginaux
et
sont des échantillons SI provenant de la
population
De
même,
est
un échantillon SI de taille
et
est
un échantillon SI de taille
Pour le plan d’échantillonnage SI2,
l’estimateur composite en (3.3) donne
et la variance de l’estimateur
composite s’exprime par
avec
voir l’annexe pour une preuve.
Nous considérons deux exemples. Le
choix
mène à l’estimateur
« intersection »
et l’expression de la variance se simplifie
en
Le choix
et
mène à l’estimateur « union»
où les échantillons complets sont
utilisés, et la variance peut s’écrire sous la forme
Les variances de l’estimateur
« union » et de l’estimateur « intersection » ont été
établies par Qualité et Tillé (2008), voir aussi Tam (1984).
Le choix de
et
revêt une importance pratique si l’on veut
obtenir un estimateur composite efficace. Après un peu de calcul, le vecteur
qui
minimise la variance de
est
donné par
avec
Pour deux variables
et
se rapportant à une même
caractéristique observée à deux périodes différentes,
doit, en principe, être proche
de
et
Le vecteur
dans (3.12) est, à son
tour, proche du vecteur nul, et si la taille de l’échantillon « intersection »
est comparable à celles de
et
nous obtenons
et
Par conséquent, l’utilisation de
l’estimateur « intersection » où
paraît raisonnable en pratique. Au
contraire, l’estimateur « union » peut être très inefficace; voir la
section 4.2 pour un exemple. Ces conclusions concordent avec celles de
Qualité et Tillé (2008), section 2.2.2.
Plusieurs
estimateurs de variance peuvent être utilisés pour l’estimateur composite.
L’estimation des dispersions sur l’échantillon « intersection »
uniquement donne l’estimateur de variance sans biais
tandis qu’une estimation sur les
échantillons entiers donne
Berger (2004) a considéré l’estimation
de la variance pour l’estimateur « union » sous un plan d’échantillonnage
rotatif à entropie maximale en estimant séparément les trois composantes dans (3.6).
3.1.2
Plan à plusieurs degrés
bidimensionnel
Considérons
maintenant un plan d’échantillonnage à deux degrés bidimensionnel (MULT2). Nous
supposons qu’un échantillon de premier degré
de
taille
est
d’abord sélectionné avec remise parmi les UPE
À
l’intérieur de chaque UPE
on
sélectionne ensuite un échantillon SI2 de taille
. Ce type de plan d’échantillonnage se
dégage en particulier dans le cas d’un plan à deux degrés autopondéré en deux
vagues, avec à la deuxième vague un remplacement partiel des USE sélectionnées
à la première vague. L’estimateur composite en (3.3) donne
où
où
où
et où
désigne le nombre d’USE dans l’UPE
Par exemple,
en utilisant uniquement les échantillons communs à l’intérieur des UPE, on
obtient l’estimateur « intersection »
En utilisant les échantillons
complets à l’intérieur des UPE, on obtient l’estimateur « union »
Nous notons que, pour tout vecteur de
valeurs
la variance due au premier degré
d’échantillonnage pour
est la même. Les estimateurs
composites possibles diffèrent donc en ce qui concerne la variance de second
degré uniquement. Compte tenu de la discussion de la section 3.1.1, nous
nous attendons par conséquent à ce que l’estimateur « intersection » soit
proche de l’estimateur composite optimal; voir la section 4.2 pour un
exemple. Un estimateur de variance sans biais pour
est donné par
3.2 Estimation de l’évolution de l’indice de Gini
L’évolution
de l’indice de Gini
peut s’écrire sous la forme
où
L’utilisation de l’estimation
composite mène à
où
Habituellement,
dans un cadre d’échantillonnage temporel, les échantillons
et
ne
sont pas indépendants. Par conséquent, nos conditions diffèrent de l’estimation
usuelle des fonctionnelles dépendantes des fonctions de répartition estimées
sur des échantillons indépendants; voir, par exemple, Pires et Branco (2002) et
Reid (1981), qui donnent le développement d’ordre un d’une fonctionnelle pour
deux échantillons utilisant les fonctions d’influence partielles. Davison et Hinkley (1997, page 71) donnent des
méthodes bootstrap sous un cadre similaire. Sous un plan d’échantillonnage
bidimensionnel général
Goga,
Deville et Ruiz-Gazen (2009) donnent une technique de
linéarisation pour deux échantillons de fonctionnelles bivariées que nous
utiliserons dans la suite de l’exposé.
3.3 Estimation de la variance par linéarisation
Pour obtenir
la variance asymptotique de
nous adoptons le cadre asymptotique introduit
par Goga, Deville et Ruiz-Gazen (2009),
qui est une extension du cas à deux échantillons du cadre asymptotique d’Isaki et Fuller (1982). Définissons, quand
elles existent, les fonctions d’influence partielles d’une fonctionnelle
au
point
par
Nous définissons les variables
linéarisées
pour
comme étant les fonctions
d’influence partielles de
pour
et
Pour l’évolution de l’indice de
Gini
nous pouvons calculer les variables linéarisées
en utilisant (2.10), à savoir
où
La variable linéarisée estimée est
3.3.1
Plan SI bidimensionnel
Dans le cas
du plan SI2 présenté à la section 3.1.1, l’insertion des variables
calculées en (3.22) dans la formule de
variance (3.6) donne l’approximation de la variance
voir le théorème 1 dans Goga, Deville et Ruiz-Gazen (2009). Pour
obtenir un estimateur de variance, les variables linéarisées peuvent être estimées
de plusieurs façons. Si l’on utilise seulement l’échantillon « intersection »
les variables linéarisées estimées
s’obtiennent au moyen de (3.23)
en prenant
et
Un estimateur de variance s’obtient
alors en insérant ces variables linéarisées dans (3.13). Cela donne
Si les deux échantillons
et
sont utilisés, les variables
linéarisées estimées
s’obtiennent au moyen de (3.23)
en prenant
et
Un estimateur de variance s’obtient
alors en insérant ces variables linéarisées dans (3.14). Cela donne
3.3.2
Plan à plusieurs degrés bidimensionnel
Dans le cas
du plan MULT2 présenté à la section 3.1.2, les variables linéarisées
peuvent également être estimées de plusieurs façons. Pour simplifier, nous
considérons l’utilisation de l’échantillon « intersection »
seulement, de sorte que les variables
linéarisées estimées
s’obtiennent au moyen de (3.23) en
prenant
et
Un
estimateur de variance s’obtient alors en insérant ces variables linéarisées
dans (3.19). Cela donne
où
et
s’obtiennent à partir de (3.15)
et (3.16), respectivement, en remplaçant
par
3.4 Estimation de la variance par bootstrap
Les méthodes
bootstrap n’ont pas encore été étudiées dans le cas de l’évolution de l’indice
de Gini. Les principes des techniques de bootstrap pondéré peuvent être étendus
au contexte de deux échantillons, c’est-à-dire que chaque mesure
avec
et
est
estimée, conditionnellement aux échantillons sélectionnés au départ, par une
mesure bootstrap pondérée
qui
permet de reproduire, au moins approximativement, les deux premiers moments
d’un estimateur sans biais dans le cas linéaire. À la section 3.4.1, nous
examinons une généralisation du bootstrap sans remise (BWO) au plan SI2. À
la section 3.4.2, nous proposons une généralisation du bootstrap avec
remise (BWR) au plan MULT2.
3.4.1
Une généralisation du bootstrap sans
remise au plan SI2
Nous
considérons d’abord le plan SI2. La construction d’une pseudopopulation
est
plus complexe dans le cas de deux échantillons, puisque les variables d’intérêt
mesurées aux vagues
et
doivent être disponibles pour chaque unité
dans
Nous décrivons donc un algorithme
bootstrap où seul l’échantillon « intersection »
est
utilisé pour construire la pseudopopulation
dans l’esprit de l’estimateur de variance
« intersection » en (3.24).
Supposons que
est
un entier. Les vecteurs
s’obtiennent en créant d’abord une
pseudopopulation
de
taille
en dupliquant
fois chaque unité
de l’échantillon original
Une
réplique d’échantillon SI2
de
taille
est
ensuite sélectionnée dans
Les
mesures bootstrap sont alors
avec
le nombre de fois que l’unité
est sélectionnée dans la
réplique d’échantillon
Dans le cas linéaire,
l’estimateur bootstrap du paramètre
est alors donné par
où
Après un peu de calcul, nous
obtenons
où
est donné en (3.7), et
est donné en (3.13). La
généralisation du bootstrap sans remise (BWO) permet donc de reproduire exactement
l’estimateur « intersection » du premier moment et de reproduire approximativement
l’estimateur « intersection » du deuxième moment pour une grande
valeur de
La
construction de
peut être évitée en notant que, sous la
procédure BWO, chaque vecteur
suit une loi hypergéométrique multivariée. Par
conséquent, les poids de rééchantillonnage peuvent être produits directement.
L’algorithme peut être adapté au cas général où
n’est pas un entier en appliquant n’importe
laquelle des techniques mentionnées à la section 2.4.
3.4.2
Une généralisation du bootstrap avec
remise pour le plan à plusieurs degrés bidimensionnel
Nous
considérons maintenant le plan d’échantillonnage à deux degrés bidimensionnel
avec un échantillon de premier degré commun
présenté à la section 3.1.2. La procédure
bootstrap proposée est similaire à celle décrite dans Rao et Wu (1988). Une
réplique d’échantillon
de
taille
est
tirée par échantillonnage aléatoire simple avec remise (SIR) dans l’échantillon
de premier degré original
Les
mesures bootstrap sont alors
Celle-ci peut se réécrire sous la
forme
où
est l’union des échantillons
pour
et où le poids de
rééchantillonnage
est égal à
multiplié par le nombre de fois que
l’UPE contenant
est sélectionnée dans
Dans le cas
linéaire, l’estimateur bootstrap du paramètre
est
alors
où
est défini en (3.16). Après
un peu de calcul, nous obtenons
où
est donné en (3.15), et
est donné en (3.19). La généralisation
proposée du bootstrap avec remise permet donc de reproduire exactement
l’estimateur composite du premier moment et l’estimateur associé au deuxième moment.