Linéarisation contre Bootstrap pour estimer la variance de l’évolution de l’indice de Gini
Section 3. Le cas de deux échantillons

3.1 Notation et estimation composite

Supposons maintenant que deux variables $Y_{1}$ et $Y_{2}$ sont mesurées sur la population $U,$ et soit $y_{d 1}, \dots, y_{d N}$ les valeurs prises par $Y_{d}, d =1, 2,$ sur les unités de la population. Les variables $Y_{1}$ et $Y_{2}$ peuvent par exemple correspondre à une caractéristique d’intérêt observée à deux périodes différentes $τ_{1}$ et $τ_{2} .$ Nous considérons l’estimation de paramètres $Δ θ$ qui peuvent s’écrire sous la forme d’une fonctionnelle $Δ θ = T (M_{1}, M_{2}),$ où $M_{d} = \sum_{k \in U} δ_{{y_{d k}}} .$ Par exemple, le cas linéaire $Δ t = t_{y 2} - t_{y 1}$ correspond à la différence entre les totaux $t_{y 2} = \sum_{k \in U} y_{2 k}$ et $t_{y 1} = \sum_{k \in U} y_{1 k} .$

Soit $s_{1}$ et $s_{2}$ deux échantillons de tailles $n_{1}$ et $n_{2},$ respectivement, tirés de la même population $U$ selon un plan d’échantillonnage bidimensionnel $p (\cdot, \cdot)$ (voir Goga, 2003). La variable $Y_{1}$ est mesurée sur $s_{1},$ tandis que la variable $Y_{2}$ est mesurée sur $s_{2} .$ L’insertion des estimateurs fondés sur l’échantillon ${\hat{M}}_{d}$ dans $Δ θ$ donne l’estimateur par substitution $\hat{Δ θ} = T ({\hat{M}}_{1}, {\hat{M}}_{2}) .$ Contrairement au cas d’un seul échantillon, plusieurs estimateurs ${\hat{M}}_{d}$ sont possibles. Dans la suite de l’exposé, nous nous concentrons sur la classe générale d’estimateurs composites introduite par Goga, Deville et Ruiz-Gazen (2009). Nous notons $s_{1 •} = s_{1} \ s_{2},$ $s_{3} = s_{1} \cap s_{2}$ et $s_{2 •} = s_{2} \ s_{1} .$ Pour $⋄ \in {1 •, 3, 2 •},$ nous notons $π_{⋄ , k}$ le nombre prévu de tirages de l’unité $k$ dans $s_{⋄}$ et ${\hat{M}}_{d , ⋄} = \sum_{k \in s_{⋄}} w_{⋄ , k} δ_{y_{d k}} ,$ où $w_{⋄ , k} = π_{⋄ , k}^{- 1} .$ Les estimateurs composites de $M_{1}$ et $M_{2}$ sont

${\hat{M}}_{1}^{co} (a) = a {\hat{M}}_{1,1 •} + (1 - a) {\hat{M}}_{1,3} et {\hat{M}}_{2}^{co} (b) = b {\hat{M}}_{2,2 •} + (1 - b) {\hat{M}}_{2,3}, (3.1)$

où $a$ et $b$ sont des constantes connues. Le choix $a = b =0$ mène à l’estimateur « intersection » avec ${\hat{M}}_{1}^{int} = {\hat{M}}_{1,3}$ et ${\hat{M}}_{2}^{int} = {\hat{M}}_{2,3},$ où seul est utilisé l’échantillon « intersection » $s_{3}$ (correspondant à l’intersection).

Si l’on estime le paramètre $Δ t = t_{y 2} - t_{y 1},$ l’estimateur composite est donné par

${\hat{Δ t}}^{co} (a, b) = {\hat{t}}_{y_{2}}^{co} - {\hat{t}}_{y_{1}}^{co}, (3.2)$

où ${\hat{t}}_{y_{1}}^{co} = \int y d {\hat{M}}_{1}^{co} (y)$ et ${\hat{t}}_{y_{2}}^{co} = \int y d {\hat{M}}_{2}^{co} (y) .$ Il peut se réécrire sous la forme

${\hat{Δ t}}^{co} (a, b) = b ({\hat{t}}_{y_{2} , s_{2 •}} - {\hat{t}}_{y_{2} , s_{3}}) - a ({\hat{t}}_{y_{1} , s_{1 •}} - {\hat{t}}_{y_{1} , s_{3}}) + ({\hat{t}}_{y_{2} , s_{3}} - {\hat{t}}_{y_{1} , s_{3}}), (3.3)$

où ${\hat{t}}_{y_{d} , s_{⋄}} = \sum_{k \in s_{⋄}} w_{⋄, k} y_{d k} .$ La variance de l’estimateur composite est

$\begin{matrix} V {{\hat{Δ t}}^{co} (a, b)} & = & (b, - a,1) V {({\hat{t}}_{y_{2} , s_{2 •}} - {\hat{t}}_{y_{2} , s_{3}} , {\hat{t}}_{y_{1} , s_{1 •}} - {\hat{t}}_{y_{1} , s_{3}} , {\hat{t}}_{y_{2} , s_{3}} - {\hat{t}}_{y_{1} , s_{3}})^{⊤}} {(b, - a,1)}^{⊤} . (3.4) \end{matrix}$

Trouver le vecteur $(a_{opt} , b_{opt})$ $_{}^{⊤}$ qui minimise la variance en (3.4) mène à l’estimateur composite optimal (Goga, Deville et Ruiz-Gazen, 2009, section 3.6). Notons qu’il ne s’agit pas d’un estimateur proprement dit, puisqu’il dépend de quantités inconnues qui doivent être estimées en pratique. Cependant, il représente une référence utile que nous utiliserons pour évaluer des estimateurs composites plus simples.

Un estimateur de variance s’obtient en substituant dans (3.4) un estimateur de la matrice de variance-covariance. L’obtention des estimateurs de variance est décrite en détail aux sections 3.1.1 et 3.1.2 pour deux exemples de plans d’échantillonnage bidimensionnels.

3.1.1 Plan SI bidimensionnel

Le plan SI bidimensionnel (SI2) de taille fixée $(n_{1 •} , n_{3}, n_{2 •})$ attribue des probabilités égales à tous les $s = (s_{1} , s_{2})$ pour lesquels les sous-échantillons associés $s_{1 •} ,$ $s_{3}$ et $s_{2 •}$ possèdent les tailles requises $n_{1 •} ,$ $n_{3}$ et $n_{2 •} ,$ voir Goga (2003) ainsi que Qualité et Tillé (2008). Le plan SI2 a pour propriété intéressante que les échantillons marginaux $s_{1 •} ,$ $s_{3}$ et $s_{2 •}$ sont des échantillons SI provenant de la population $U .$ De même, $s_{1}$ est un échantillon SI de taille $n_{1} = n_{1 •} + n_{3},$ et $s_{2}$ est un échantillon SI de taille $n_{2} = n_{2 •} + n_{3} .$ Pour le plan d’échantillonnage SI2, l’estimateur composite en (3.3) donne

${\hat{Δ t}}^{co} (a, b) = N b ({\bar{y}}_{2, s_{2 •}} - {\bar{y}}_{2, s_{3}}) - N a ({\bar{y}}_{1, s_{1 •}} - {\bar{y}}_{1, s_{3}}) + N ({\bar{y}}_{2, s_{3}} - {\bar{y}}_{1, s_{3}}), (3.5)$

et la variance de l’estimateur composite s’exprime par

$V {{\hat{Δ t}}^{co} (a, b)} = N^{2} {c_{1} (a) S_{y_{1} , U}^{2} - 2 c_{12} (a, b) S_{y_{1} y_{2} , U} + c_{2} (b) S_{y_{2} , U}^{2}}, (3.6)$

avec

$\begin{array}{l} c_{1} (a) & = \frac{{(1 - a)}^{2}}{n_{3}} + \frac{a^{2}}{n_{1} - n_{3}} - \frac{1}{N}, \\ c_{2} (b) & = \frac{{(1 - b)}^{2}}{n_{3}} + \frac{b^{2}}{n_{2} - n_{3}} - \frac{1}{N}, \\ c_{12} (a, b) & = \frac{(1 - a) (1 - b)}{n_{3}} - \frac{1}{N}, \end{array}$

voir l’annexe pour une preuve.

Nous considérons deux exemples. Le choix $a = b =0$ mène à l’estimateur « intersection »

${\hat{Δ t}}^{int} = {\hat{Δ t}}^{co} (0,0) = \frac{N}{n_{3}} \sum_{k \in s_{3}} (y_{2 k} - y_{1 k}), (3.7)$

et l’expression de la variance se simplifie en

$V {{\hat{Δ t}}^{int}} = N^{2} (\frac{1}{n_{3}} - \frac{1}{N}) S_{y_{2} - y_{1} , U}^{2} . (3.8)$

Le choix $a = n_{1}^{- 1} n_{1 •}$ et $b = n_{2}^{- 1} n_{2 •}$ mène à l’estimateur « union»

${\hat{Δ t}}^{uni} = {\hat{Δ t}}^{co} (n_{1}^{- 1} n_{1 •} , n_{2}^{- 1} n_{2 •}) = \frac{N}{n_{2}} \sum_{k \in s_{2}} y_{2 k} - \frac{N}{n_{1}} \sum_{k \in s_{1}} y_{1 k} (3.9)$

où les échantillons complets sont utilisés, et la variance peut s’écrire sous la forme

$V {{\hat{Δ t}}^{uni}} = N^{2} {(\frac{1}{n_{1}} - \frac{1}{N}) S_{y_{1} , U}^{2} - 2 (\frac{n_{3}}{n_{1} n_{2}} - \frac{1}{N}) S_{y_{1} y_{2} , U} + (\frac{1}{n_{2}} - \frac{1}{N}) S_{y_{2} , U}^{2}} . (3.10)$

Les variances de l’estimateur « union » et de l’estimateur « intersection » ont été établies par Qualité et Tillé (2008), voir aussi Tam (1984).

Le choix de $a$ et $b$ revêt une importance pratique si l’on veut obtenir un estimateur composite efficace. Après un peu de calcul, le vecteur $(a_{opt} , b_{opt})$ $_{}^{⊤}$ qui minimise la variance de ${\hat{Δ t}}^{co} (a, b)$ est donné par

$(a_{opt} , b_{opt})$ $_{}^{⊤}$ $\begin{matrix} = & A^{- 1} X (3.11) \end{matrix}$

avec

$A = (\begin{array}{l} \frac{n_{1}}{n_{1} - n_{3}} & - \frac{S_{y_{1} y_{2} , U}}{S_{y_{1} , U}^{2}} \\ - \frac{S_{y_{1} y_{2} , U}}{S_{y_{2} , U}^{2}} & \frac{n_{2}}{n_{2} - n_{3}} \end{array}) et X = {(1 - \frac{S_{y_{1} y_{2} , U}}{S_{y_{1} , U}^{2}}, 1 - \frac{S_{y_{1} y_{2} , U}}{S_{y_{2} , U}^{2}})}^{⊤} . (3.12)$

Pour deux variables $Y_{1}$ et $Y_{2}$ se rapportant à une même caractéristique observée à deux périodes différentes, $S_{y_{1} y_{2} , U}$ doit, en principe, être proche de $S_{y_{1} , U}^{2}$ et $S_{y_{2} , U}^{2} .$ Le vecteur $X$ dans (3.12) est, à son tour, proche du vecteur nul, et si la taille de l’échantillon « intersection » $s_{3}$ est comparable à celles de $s_{1 •}$ et $s_{2 •},$ nous obtenons $a_{opt} ≃ 0$ et $b_{opt} ≃ 0.$ Par conséquent, l’utilisation de l’estimateur « intersection » où $a = b =0$ paraît raisonnable en pratique. Au contraire, l’estimateur « union » peut être très inefficace; voir la section 4.2 pour un exemple. Ces conclusions concordent avec celles de Qualité et Tillé (2008), section 2.2.2.

Plusieurs estimateurs de variance peuvent être utilisés pour l’estimateur composite. L’estimation des dispersions sur l’échantillon « intersection » uniquement donne l’estimateur de variance sans biais

$v_{int}^{HT} {{\hat{Δ t}}^{co} (a, b)} = N^{2} {c_{1} (a) S_{y_{1} , s_{3}}^{2} - 2 c_{12} (a, b) S_{y_{1} y_{2} , s_{3}} + c_{2} (b) S_{y_{2} , s_{3}}^{2}}, (3.13)$

tandis qu’une estimation sur les échantillons entiers donne

$v_{uni}^{HT} {{\hat{Δ t}}^{co} (a, b)} = N^{2} {c_{1} (a) S_{y_{1} , s_{1}}^{2} - 2 c_{12} (a, b) S_{y_{1} y_{2} , s_{3}} + c_{2} (b) S_{y_{2} , s_{2}}^{2}} . (3.14)$

Berger (2004) a considéré l’estimation de la variance pour l’estimateur « union » sous un plan d’échantillonnage rotatif à entropie maximale en estimant séparément les trois composantes dans (3.6).

3.1.2 Plan à plusieurs degrés bidimensionnel

Considérons maintenant un plan d’échantillonnage à deux degrés bidimensionnel (MULT2). Nous supposons qu’un échantillon de premier degré $s_{I}$ de taille $m$ est d’abord sélectionné avec remise parmi les UPE $U_{1} , \dots, U_{N_{I}} .$ À l’intérieur de chaque UPE $i \in s_{I} ,$ on sélectionne ensuite un échantillon SI2 de taille $(n_{1 •}^{i} , n_{3}^{i} , n_{2 •}^{i})$ . Ce type de plan d’échantillonnage se dégage en particulier dans le cas d’un plan à deux degrés autopondéré en deux vagues, avec à la deuxième vague un remplacement partiel des USE sélectionnées à la première vague. L’estimateur composite en (3.3) donne

${\hat{Δ t}}^{co} (a, b) = \sum_{i \in s_{I}} π_{I i}^{- 1} {\hat{Δ t}}^{i , co} (a, b) (3.15)$

où

${\hat{Δ t}}^{i , co} (a, b) = N_{i} b ({\bar{y}}_{2, s_{2 •}^{i}} - {\bar{y}}_{2, s_{3}^{i}}) - N_{i} a ({\bar{y}}_{1, s_{1 •}^{i}} - {\bar{y}}_{1, s_{3}^{i}}) + N_{i} ({\bar{y}}_{2, s_{3}^{i}} - {\bar{y}}_{1, s_{3}^{i}}), (3.16)$

où ${\bar{y}}_{d , s_{⋄}^{i}} = {(n_{⋄}^{i})}^{- 1} \sum_{k \in s_{⋄}^{i}} y_{⋄ k} ,$ où $s_{⋄}^{i} = s_{⋄} \cap U_{i} ,$ et où $N_{i}$ désigne le nombre d’USE dans l’UPE $u_{i} .$

Par exemple, en utilisant uniquement les échantillons communs à l’intérieur des UPE, on obtient l’estimateur « intersection »

${\hat{Δ t}}^{int} = \sum_{i \in s_{I}} π_{I i}^{- 1} {\hat{Δ t}}^{i , int} avec {\hat{Δ t}}^{i , int} = N_{i} ({\bar{y}}_{2, s_{3}^{i}} - {\bar{y}}_{1, s_{3}^{i}}) . (3.17)$

En utilisant les échantillons complets à l’intérieur des UPE, on obtient l’estimateur « union »

${\hat{Δ t}}^{uni} = \sum_{i \in s_{I}} π_{I i}^{- 1} {\hat{Δ t}}^{i , uni} avec {\hat{Δ t}}^{i , uni} = N_{i} ({\bar{y}}_{2, s_{2}^{i}} - {\bar{y}}_{1, s_{1}^{i}}) . (3.18)$

Nous notons que, pour tout vecteur de valeurs ${(a, b)}^{⊤} ,$ la variance due au premier degré d’échantillonnage pour ${\hat{Δ t}}^{co} (a, b)$ est la même. Les estimateurs composites possibles diffèrent donc en ce qui concerne la variance de second degré uniquement. Compte tenu de la discussion de la section 3.1.1, nous nous attendons par conséquent à ce que l’estimateur « intersection » soit proche de l’estimateur composite optimal; voir la section 4.2 pour un exemple. Un estimateur de variance sans biais pour ${\hat{Δ t}}^{co} (a, b)$ est donné par

$v^{HH} {{\hat{Δ t}}^{co} (a, b)} = \frac{m}{m - 1} \sum_{i \in s_{I}} {(\frac{{\hat{Δ t}}^{i , co} (a, b)}{π_{I i}} - \frac{{\hat{Δ t}}^{co} (a, b)}{m})}^{2} . (3.19)$

3.2 Estimation de l’évolution de l’indice de Gini

L’évolution de l’indice de Gini $Δ G = G_{2} - G_{1}$ peut s’écrire sous la forme

$Δ G = \frac{\int {2 F_{2 N} (y) - 1} y d M_{2} (y)}{\int y d M_{2} (y)} - \frac{\int {2 F_{1 N} (y) - 1} y d M_{1} (y)}{\int y d M_{1} (y)} (3.20)$

où $F_{d N} (y) = N^{- 1} \sum_{k \in U} 1_{{y_{d k} \leq y}} , d =1, 2.$ L’utilisation de l’estimation composite mène à

${\hat{Δ G}}^{co} (a, b) = \frac{\int {2 {\hat{F}}_{2 N}^{co} (y) - 1} y d {\hat{M}}_{2}^{co} (y)}{\int y d {\hat{M}}_{2}^{co} (y)} - \frac{\int {2 {\hat{F}}_{1 N}^{co} (y) - 1} y d {\hat{M}}_{1}^{co} (y)}{\int y d {\hat{M}}_{1}^{co} (y)} (3.21)$

où ${\hat{F}}_{d N}^{co} (y) = {\int d {\hat{M}}_{d}^{co} (y)}^{- 1} \int 1_{{ξ \leq y}} d {\hat{M}}_{d}^{co} (ξ) .$

Habituellement, dans un cadre d’échantillonnage temporel, les échantillons $s_{1}$ et $s_{2}$ ne sont pas indépendants. Par conséquent, nos conditions diffèrent de l’estimation usuelle des fonctionnelles dépendantes des fonctions de répartition estimées sur des échantillons indépendants; voir, par exemple, Pires et Branco (2002) et Reid (1981), qui donnent le développement d’ordre un d’une fonctionnelle pour deux échantillons utilisant les fonctions d’influence partielles. Davison et Hinkley (1997, page 71) donnent des méthodes bootstrap sous un cadre similaire. Sous un plan d’échantillonnage bidimensionnel général $p (\cdot, \cdot),$ Goga, Deville et Ruiz-Gazen (2009) donnent une technique de linéarisation pour deux échantillons de fonctionnelles bivariées que nous utiliserons dans la suite de l’exposé.

3.3 Estimation de la variance par linéarisation

Pour obtenir la variance asymptotique de ${\hat{Δ θ}}^{co} (a, b),$ nous adoptons le cadre asymptotique introduit par Goga, Deville et Ruiz-Gazen (2009), qui est une extension du cas à deux échantillons du cadre asymptotique d’Isaki et Fuller (1982). Définissons, quand elles existent, les fonctions d’influence partielles d’une fonctionnelle $T (M_{1}, M_{2})$ au point $y$ par

$\begin{array}{l} I_{1} T (M_{1} , M_{2} ; y) & = \lim_{h \to 0} \frac{T (M_{1} + h δ_{y} , M_{2}) - T (M_{1} , M_{2})}{h}, \\ I_{2} T (M_{1} , M_{2} ; y) & = \lim_{h \to 0} \frac{T (M_{1} , M_{2} + h δ_{y}) - T (M_{1} , M_{2})}{h} . \end{array}$

Nous définissons les variables linéarisées $u_{d k} = I_{d} T (M_{1} , M_{2} ; y_{d k})$ pour $d =1, 2$ comme étant les fonctions d’influence partielles de $T$ pour $(M_{1} , M_{2})$ et $y = y_{d k} .$ Pour l’évolution de l’indice de Gini $Δ G,$ nous pouvons calculer les variables linéarisées $u_{d k}$ en utilisant (2.10), à savoir

$u_{d k} = 2 F_{d N} (y_{d k}) \frac{y_{d k} - {\bar{y}}_{d k , U <}}{t_{y_{d}}} - y_{d k} \frac{G_{d} + 1}{t_{y_{d}}} + \frac{1 - G_{d}}{N}, (3.22)$

où ${\bar{y}}_{d k , U <} = {(\sum_{l \in U} 1_{{y_{d l} < y_{d k}}})}^{- 1} \sum_{j \in U} y_{d j} 1_{{y_{d j} < y_{d k}}} .$ La variable linéarisée estimée est

${\hat{u}}_{d k} = 2 {\hat{F}}_{d N}^{co} (y_{d k}) \frac{y_{d k} - {\bar{y}}_{d k , s <}^{co}}{{\hat{t}}_{y 1}^{co}} - y_{d k} \frac{{\hat{G}}_{d}^{co} + 1}{{\hat{t}}_{y 1}^{co}} + \frac{1 - {\hat{G}}_{d}^{co}}{\hat{N}} . (3.23)$

3.3.1 Plan SI bidimensionnel

Dans le cas du plan SI2 présenté à la section 3.1.1, l’insertion des variables $u_{d k}$ calculées en (3.22) dans la formule de variance (3.6) donne l’approximation de la variance

$V {{\hat{Δ G}}^{co} (a, b)} ≃ N^{2} {c_{1} (a) S_{u_{1} , U}^{2} - 2 c_{12} (a, b) S_{u_{1} u_{2} , U} + c_{2} (b) S_{u_{2} , U}^{2}},$

voir le théorème 1 dans Goga, Deville et Ruiz-Gazen (2009). Pour obtenir un estimateur de variance, les variables linéarisées peuvent être estimées de plusieurs façons. Si l’on utilise seulement l’échantillon « intersection » $s_{3},$ les variables linéarisées estimées ${\hat{u}}_{d}$ s’obtiennent au moyen de (3.23) en prenant ${\hat{M}}_{1}^{co} = {\hat{M}}_{1, 3}$ et ${\hat{M}}_{2}^{co} = {\hat{M}}_{2, 3} .$ Un estimateur de variance s’obtient alors en insérant ces variables linéarisées dans (3.13). Cela donne

$v_{int}^{HT} {{\hat{Δ G}}^{co} (a, b)} = N^{2} {c_{1} (a) S_{{\hat{u}}_{1} , s_{3}}^{2} - 2 c_{12} (a, b) S_{{\hat{u}}_{1} {\hat{u}}_{2} , s_{3}} + c_{2} (b) S_{{\hat{u}}_{2} , s_{3}}^{2}} . (3.24)$

Si les deux échantillons $s_{1}$ et $s_{2}$ sont utilisés, les variables linéarisées estimées ${\hat{u}}_{d}$ s’obtiennent au moyen de (3.23) en prenant ${\hat{M}}_{1}^{co} = {\hat{M}}_{1,1}$ et ${\hat{M}}_{2}^{co} = {\hat{M}}_{2,2} .$ Un estimateur de variance s’obtient alors en insérant ces variables linéarisées dans (3.14). Cela donne

$v_{uni}^{HT} {{\hat{Δ G}}^{co} (a, b)} = N^{2} {c_{1} (a) S_{{\hat{u}}_{1} , s_{1}}^{2} - 2 c_{12} (a, b) S_{{\hat{u}}_{1} {\hat{u}}_{2} , s_{3}} + c_{2} (b) S_{{\hat{u}}_{2} , s_{2}}^{2}} . (3.25)$

3.3.2 Plan à plusieurs degrés bidimensionnel

Dans le cas du plan MULT2 présenté à la section 3.1.2, les variables linéarisées peuvent également être estimées de plusieurs façons. Pour simplifier, nous considérons l’utilisation de l’échantillon « intersection » $s_{3}$ seulement, de sorte que les variables linéarisées estimées ${\hat{u}}_{d}$ s’obtiennent au moyen de (3.23) en prenant ${\hat{M}}_{1}^{co} = {\hat{M}}_{1,3}$ et ${\hat{M}}_{2}^{co} = {\hat{M}}_{2,3} .$ Un estimateur de variance s’obtient alors en insérant ces variables linéarisées dans (3.19). Cela donne

$v^{HH} {{\hat{Δ G}}^{co} (a, b)} = \frac{m}{m - 1} \sum_{i \in s_{I}} {(\frac{{\hat{Δ u}}^{i , co} (a, b)}{π_{I i}} - \frac{{\hat{Δ u}}^{co} (a, b)}{m})}^{2}, (3.26)$

où ${\hat{Δ u}}^{co} (a, b)$ et ${\hat{Δ u}}^{i , co} (a, b)$ s’obtiennent à partir de (3.15) et (3.16), respectivement, en remplaçant $y_{d k}$ par ${\hat{u}}_{d k} .$

3.4 Estimation de la variance par bootstrap

Les méthodes bootstrap n’ont pas encore été étudiées dans le cas de l’évolution de l’indice de Gini. Les principes des techniques de bootstrap pondéré peuvent être étendus au contexte de deux échantillons, c’est-à-dire que chaque mesure ${\hat{M}}_{d , ⋄}$ avec $d =1, 2$ et $⋄ \in {1 •, 3, 2 •}$ est estimée, conditionnellement aux échantillons sélectionnés au départ, par une mesure bootstrap pondérée ${\hat{M}}_{d , ⋄}^{*}$ qui permet de reproduire, au moins approximativement, les deux premiers moments d’un estimateur sans biais dans le cas linéaire. À la section 3.4.1, nous examinons une généralisation du bootstrap sans remise (BWO) au plan SI2. À la section 3.4.2, nous proposons une généralisation du bootstrap avec remise (BWR) au plan MULT2.

3.4.1 Une généralisation du bootstrap sans remise au plan SI2

Nous considérons d’abord le plan SI2. La construction d’une pseudopopulation $U^{*}$ est plus complexe dans le cas de deux échantillons, puisque les variables d’intérêt mesurées aux vagues $τ_{1}$ et $τ_{2}$ doivent être disponibles pour chaque unité dans $U^{*} .$ Nous décrivons donc un algorithme bootstrap où seul l’échantillon « intersection » $s_{3}$ est utilisé pour construire la pseudopopulation $U^{*} ,$ dans l’esprit de l’estimateur de variance « intersection » en (3.24).

Supposons que $N / n_{3}$ est un entier. Les vecteurs $D_{⋄}$ s’obtiennent en créant d’abord une pseudopopulation $U^{*}$ de taille $N$ en dupliquant $N / n_{3}$ fois chaque unité $k$ de l’échantillon original $s_{3} .$ Une réplique d’échantillon SI2 $s^{*} = (s_{1 •}^{*} , s_{3}^{*} , s_{• 2}^{*})$ de taille $(n_{1 •} , n_{3} , n_{2 •})$ est ensuite sélectionnée dans $U^{*} .$ Les mesures bootstrap sont alors

${\hat{M}}_{d , ⋄}^{*} = \sum_{k \in s_{3}} w_{⋄ , k} D_{⋄ , k} δ_{y_{d k}} , (3.27)$

avec $D_{⋄ , k}$ le nombre de fois que l’unité $k$ est sélectionnée dans la réplique d’échantillon $s_{⋄}^{*} .$ Dans le cas linéaire, l’estimateur bootstrap du paramètre $Δ t$ est alors donné par

${\hat{Δ t}}^{co*} (a, b) = b ({\hat{t}}_{y_{2} , s_{2 •}^{*}} - {\hat{t}}_{y_{2} , s_{3}^{*}}) - a ({\hat{t}}_{y_{1} , s_{1 •}^{*}} - {\hat{t}}_{y_{1} , s_{3}^{*}}) + ({\hat{t}}_{y_{2} , s_{3}^{*}} - {\hat{t}}_{y_{1} , s_{3}^{*}}), (3.28)$

où ${\hat{t}}_{y_{d} , s_{⋄}^{*}} = \sum_{k \in s_{3}} w_{⋄ , k} D_{⋄ , k} y_{d k} .$ Après un peu de calcul, nous obtenons

$E_{*} {{\hat{Δ t}}^{co*} (a, b)} = {\hat{Δ t}}^{int} et V_{*} {{\hat{Δ t}}^{co *} (a, b)} = \frac{1 - n_{3}^{- 1}}{1 - N^{- 1}} v_{int}^{HT} {{\hat{Δ t}}^{co} (a, b)}, (3.29)$

où ${\hat{Δ t}}^{int}$ est donné en (3.7), et $v_{int}^{HT} ({\hat{t}}_{y 1}^{HT})$ est donné en (3.13). La généralisation du bootstrap sans remise (BWO) permet donc de reproduire exactement l’estimateur « intersection » du premier moment et de reproduire approximativement l’estimateur « intersection » du deuxième moment pour une grande valeur de $n_{3} .$

La construction de $U^{*}$ peut être évitée en notant que, sous la procédure BWO, chaque vecteur $D_{⋄}$ suit une loi hypergéométrique multivariée. Par conséquent, les poids de rééchantillonnage peuvent être produits directement. L’algorithme peut être adapté au cas général où $N / n_{3}$ n’est pas un entier en appliquant n’importe laquelle des techniques mentionnées à la section 2.4.

3.4.2 Une généralisation du bootstrap avec remise pour le plan à plusieurs degrés bidimensionnel

Nous considérons maintenant le plan d’échantillonnage à deux degrés bidimensionnel avec un échantillon de premier degré commun $s_{I}$ présenté à la section 3.1.2. La procédure bootstrap proposée est similaire à celle décrite dans Rao et Wu (1988). Une réplique d’échantillon $s_{I}^{*}$ de taille $m - 1$ est tirée par échantillonnage aléatoire simple avec remise (SIR) dans l’échantillon de premier degré original $s_{I} .$ Les mesures bootstrap sont alors

${\hat{M}}_{d , ⋄}^{*} = \frac{m}{m - 1} \sum_{i \in s_{I}^{*}} \sum_{k \in s_{⋄}^{i}} π_{I i}^{- 1} π_{⋄ k | i}^{- 1} δ_{y_{d k}} où π_{⋄ k | i} = \frac{n_{⋄}^{i}}{N_{i}} . (3.30)$

Celle-ci peut se réécrire sous la forme

${\hat{M}}_{d , ⋄}^{*} = \sum_{k \in s_{⋄}} w_{⋄ , k} D_{⋄ , k} δ_{y_{d k}} , (3.31)$

où $s_{⋄}$ est l’union des échantillons $s_{⋄}^{i}$ pour $i \in s_{I} ,$ et où le poids de rééchantillonnage $D_{⋄ , k}$ est égal à $m {(m - 1)}^{- 1}$ multiplié par le nombre de fois que l’UPE contenant $k$ est sélectionnée dans $s_{I}^{*} .$

Dans le cas linéaire, l’estimateur bootstrap du paramètre $Δ t$ est alors

${\hat{Δ t}}^{co*} (a, b) = \frac{m}{m - 1} \sum_{i \in s_{I}^{*}} π_{I i}^{- 1} {\hat{Δ t}}^{i , co} (a, b) (3.32)$

où ${\hat{Δ t}}^{i , co} (a, b)$ est défini en (3.16). Après un peu de calcul, nous obtenons

$E_{*} {{\hat{Δ t}}^{co *} (a, b)} = {\hat{Δ t}}^{co} (a, b) et V_{*} {{\hat{Δ t}}^{co*} (a, b)} = v^{HH} {{\hat{Δ t}}^{co} (a, b)}, (3.33)$

où ${\hat{Δ t}}^{co} (a, b)$ est donné en (3.15), et $v^{HH} {{\hat{Δ t}}^{co} (a, b)}$ est donné en (3.19). La généralisation proposée du bootstrap avec remise permet donc de reproduire exactement l’estimateur composite du premier moment et l’estimateur associé au deuxième moment.

ISSN : 1712-5685

Politique de rédaction

Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.

Présentation de textes pour la revue

Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).

Note de reconnaissance

Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.

Normes de service à la clientèle

Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.

Droit d'auteur

Publication autorisée par le ministre responsable de Statistique Canada.

L'utilisation de la présente publication est assujettie aux modalités de l'Entente de licence ouverte de Statistique Canada.

N° 12-001-X au catalogue

Périodicité : semi-annuel

Ottawa

Date de modification :: 2018-06-21

Sélection de la langue

Recherche et menus

Recherche

Linéarisation contre Bootstrap pour estimer la variance de l’évolution de l’indice de Gini
Section 3. Le cas de deux échantillons

3.1 Notation et estimation composite

3.1.1 Plan SI bidimensionnel

3.1.2 Plan à plusieurs degrés bidimensionnel

3.2 Estimation de l’évolution de l’indice de Gini

3.3 Estimation de la variance par linéarisation

3.3.1 Plan SI bidimensionnel

3.3.2 Plan à plusieurs degrés bidimensionnel

3.4 Estimation de la variance par bootstrap

3.4.1 Une généralisation du bootstrap sans remise au plan SI2

3.4.2 Une généralisation du bootstrap avec remise pour le plan à plusieurs degrés bidimensionnel

Linéarisation contre Bootstrap pour estimer la variance de l’évolution de l’indice de Gini Section 3. Le cas de deux échantillons

3.1 Notation et estimation composite

3.1.1 Plan SI bidimensionnel

3.1.2 Plan à plusieurs degrés bidimensionnel

3.2 Estimation de l’évolution de l’indice de Gini

3.3 Estimation de la variance par linéarisation

3.3.1 Plan SI bidimensionnel

3.3.2 Plan à plusieurs degrés bidimensionnel

3.4 Estimation de la variance par bootstrap

3.4.1 Une généralisation du bootstrap sans remise au plan SI2

3.4.2 Une généralisation du bootstrap avec remise pour le plan à plusieurs degrés bidimensionnel

Politique de rédaction

Présentation de textes pour la revue

Note de reconnaissance

Normes de service à la clientèle

Droit d'auteur

Linéarisation contre Bootstrap pour estimer la variance de l’évolution de l’indice de Gini
Section 3. Le cas de deux échantillons