Recherche par

3. Estimation de l'EQMP au niveau du domaine

Jiming Jiang, Thuan Nguyen et J. Sunil Rao

L'EQMP au niveau du domaine basée sur le plan est définie comme étant

$EQMP ({\hat{θ}}_{i}) = E {({\hat{θ}}_{i} - θ_{i})}^{2}, (3.1)$

où, ici et dans la suite de l'exposé, $E$ désigne l'espérance basée sur le plan, et ${\hat{θ}}_{i}$ est la MPO de $θ_{i},$ donnée par (1.5) avec $ψ = {(β^{'}, γ)}^{'}$ remplacé par son MEP, $\hat{ψ} = {({\hat{β}}^{'}, \hat{γ})}^{'} .$ Comme l'ont souligné Jiang et coll. (2011), il est difficile d'obtenir un estimateur de l'EQMP au niveau du domaine sans biais d'ordre deux sous une spécification éventuellement inexacte du modèle. En effet, les techniques asymptotiques conventionnelles, telles que la méthode de linéarisation de Prasad-Rao (Prasad et Rao 1990) et la méthode du jackknife (Jiang, Lahiri et Wan 2002), ne s'appliquent plus quand le modèle sous-jacent est spécifié incorrectement. Jiang et coll. (2011) ont utilisé une technique différente pour obtenir un estimateur de l'EQMP par linéarisation qui est sans biais d'ordre deux. Cependant, il n'est pas garanti que cet estimateur soit non négatif. En outre, son terme principal est une fonction $O (1)$ des données au niveau du domaine plutôt que de toutes les données. Plus précisément, le terme principal de l'EQMP de ${\hat{θ}}_{i},$ où ${\hat{θ}}_{i}$ est la MPO de la $i^{e}$ moyenne de petit domaine, $θ_{i},$ est ${({\hat{θ}}_{i} - y_{i})}^{2} + D_{i} (2 {\hat{B}}_{i} - 1)$ sous le modèle de Fay-Herriot, où $y_{i}$ est l'observation provenant du $i^{e}$ domaine (l'estimateur direct), $D_{i}$ est la variance d'échantillonnage (connue), ${\hat{B}}_{i} = \hat{A} / (\hat{A} + D_{i}),$ et $\hat{A}$ est le MEP de la variance de l'effet aléatoire au niveau du domaine. Il s'agit du terme principal parce qu'il est d'ordre $O (1),$ tandis que les autres termes de l'expression de l'EQMP estimée sont d'ordre $O (m^{- 1})$ ou inférieur. Comme $y_{i}$ est une observation provenant d'un seul petit domaine, sa variance est assez grande, c'est-à-dire d'ordre $O (1),$ si $n_{i}$ est borné. Par ailleurs, le MEP $\hat{A}$ est obtenu en utilisant les données provenant de tous les petits domaines et, si bien que sa variance est relativement parlant (beaucoup) plus petite; et ${\hat{θ}}_{i}$ est un mélange de $y_{i}$ et des MEP. Dès lors, ${({\hat{θ}}_{i} - y_{i})}^{2}$ est le terme qui contribue le plus à la variance, qui peut être assez grande en raison de la variation de $y_{i} .$ D'autre part, le terme $D_{i} (2 {\hat{B}}_{i} - 1)$ peut être négatif. Par conséquent, en raison de la forte variation de ${({\hat{θ}}_{i} - y_{i})}^{2},$ il existe une probabilité, qui ne disparaît pas (à mesure que $m$ augmente), que le terme principal, donc l'EQMP estimée, soit négatif. Si nous adoptons une approche de linéarisation similaire sous le modèle REE, nous pouvons calculer un estimateur de l'EQMP sans biais d'ordre deux faisant intervenir ${\bar{y}}_{i \cdot}$ dans le terme principal, qui est basé sur des données provenant d'un seul petit domaine. Alors, de nouveau, nous nous heurtons au problème d'une forte variation et d'une probabilité qui ne disparaît pas d'une valeur négative de l'estimateur de l'EQMP.

Jiang et coll. (2011) ont aussi utilisé une méthode du bootstrap paramétrique pour obtenir un autre estimateur de l'EQMP; cependant, la justification de l'utilisation de cette méthode est douteuse vu la possibilité que la spécification du modèle soit inexacte. Ici, nous proposons d'utiliser le bootstrap non paramétrique conformément à l'idée originale d'Efron (Efron 1979). La méthode ne s'appuie pas sur le modèle REE et n'est donc pas affectée par la spécification inexacte du modèle. Par conséquent, la méthode courante est mieux justifiée. En outre, il est garanti que l'estimateur de l'EQMP proposé est non négatif, et positif avec une probabilité de 1, ce qui représente un avantage considérable par rapport à l'estimateur de l'EQMP par linéarisation de Jiang et coll. (2011).

Supposons que les sous-populations de petit domaine, ou les $N_{i},$ sont suffisamment grandes pour que l'échantillonnage à partir de ces sous-populations puisse être traité approximativement comme étant effectué avec remise. Soit $z_{i j} = {({x^{'}}_{i j}, y_{i j})}^{'}, j = 1, \dots, n_{i}$ les échantillons (originaux) provenant du $i^{e}$ petit domaine, $1 \leq i \leq m .$ Nous tirons alors des échantillons, $z_{i j}^{(a)} = {[{x_{i j}^{(a)}}^{'}, y_{i j}^{(a)}]}^{'}, j = 1, \dots, n_{i},$ avec remise, de ${z_{i j}, j = 1, \dots, n_{i}},$ indépendamment pour $1 \leq i \leq m .$ Supposons que $B$ échantillons bootstrap sont tirés, donnant les échantillons $z^{(a)} = {z_{i j}^{(a)},1 \leq j \leq n_{i},1 \leq i \leq m}, 1 \leq a \leq B .$ La version sous bootstrap du MP (1.5) est

${\tilde{θ}}_{i}^{(a)} = {\bar{X}}^{'}_{i \cdot} β + {r_{i} + (1 - r_{i}) \frac{n_{i} γ}{1 + n_{i} γ}} [{\bar{y}}_{i \cdot}^{(a)} - {{\bar{x}}_{i \cdot}^{(a)}}^{'} β], (3.2)$

où $β$ et $γ$ sont les mêmes paramètres de population $β$ et $γ,$ respectivement, que pour la population originale. Notons que les échantillons originaux de $z_{i j}$ sont supposés satisfaire le même modèle REE (1.4), avec $X_{i k} (Y_{i k})$ remplacé par $x_{i j} (y_{i j}) .$ Puisque les échantillons originaux sont traités comme étant la population bootstrap, suivant l'idée originale d'Efron, les paramètres de population, $β, γ,$ sont les mêmes pour les échantillons bootstrap que pour les échantillons originaux. Néanmoins, comme nous l'avons mentionné, la procédure bootstrap proposée est non paramétrique en ce sens que le modèle supposé, (1.4), ne joue aucun rôle dans le tirage des échantillons bootstrap. En particulier, les MEP de $β$ et $γ,$ basés sur les échantillons originaux, ne sont utilisés nulle part dans la procédure bootstrap; et les quantités d'intérêt dans la population sont ${\bar{Y}}_{i}, 1 \leq i \leq m,$ dont les analogues bootstrap sont ${\bar{y}}_{i \cdot},1 \leq i \leq m .$ Cela diffère du bootstrap paramétrique de Jiang et coll. (2011), où les MEP des paramètres du modèle, basés sur les échantillons originaux, sont utilisés pour tirer les échantillons bootstrap sous le modèle supposé. Notons aussi que, parce que les ${\bar{X}}_{i}$ sont connus, ils sont traités comme des constantes connues, et par conséquent ne changent pas durant la procédure bootstrap (cela n'a aucun sens d'« estimer » quelque chose que l'on connaît déjà). À part cela, la procédure suit de près l'idée du bootstrap classique (par exemple, Efron et Tibshirani (1993); voir aussi Chatterjee, Lahiri et Li (2008) pour une application à l'estimation sur petits domaines). L'estimateur bootstrap de $EQMP ({\hat{θ}}_{i}) = E {({\hat{θ}}_{i} - {\bar{Y}}_{i})}^{2}$ est

$\hat{EQMP} ({\hat{θ}}_{i}) = \frac{1}{B} \sum_{a = 1}^{B} {{\hat{θ}}_{i}^{(a)} - {\bar{y}}_{i \cdot}}^{2}, (3.3)$

où ${\hat{θ}}_{i}^{(a)}$ est (3.2) avec $β, γ$ remplacés par leurs MEP basés sur les échantillons bootstrap.

Nota. On pourrait s'inquiéter du fait que, comme les $n_{i}$ peuvent être petits dans les problèmes d'EPD types, il puisse ne pas exister de nombreux échantillons bootstrap distincts pour chaque petit domaine. Cependant, les données se rapportent non pas à un seul, mais à un grand nombre de petits domaines. Quand tous les petits domaines sont combinés, il reste encore un grand nombre d'échantillons bootstrap distincts, même si les $n_{i}$ sont petits.

Nous évaluons les propriétés de l'estimateur de l'EQMP proposé en considérant l'échantillon simulé de la sous-section 2.1 avec $b = 0, 5,$ mais sous des tailles d'échantillon plus petites. C'est-à-dire que nous prenons pour point de départ la taille d'échantillon de base $m = 10$ et $n_{i} = 5,$ puis nous augmentons $n_{i},$ pour passer de 5 à 10, ou nous augmentons $m,$ pour passer de 10 à 20. Nous considérons d'abord le biais sous le plan de sondage de l'estimateur $\hat{EQMP} ({\hat{θ}}_{i}) .$ Nous générons deux populations finies que nous fixons ensuite de manière que la population finie pour $m = 10$ soit une sous-population de la population finie pour $m = 20.$ Le tableau 3.1 donne, pour les dix premiers petits domaines (il s'agit de tous les petits domaines qui sont communs sous différentes valeurs de $m),$ l'EQMP réelle simulée (EQMP), obtenue de la même façon qu'à la section 2, la moyenne simulée de $\hat{EQMP} ({\hat{θ}}_{i}) (\hat{EQMP}),$ et le biais relatif en pourcentage (BR %) défini comme étant

$100 \times {\frac{E (\hat{EQMP}) - EQMP réelle}{EQMP réelle}},$

où l'espérance est basée sur les simulations. Une autre mesure de performance est la racine carrée de l'erreur quadratique moyenne (REQM) sur l'ensemble des simulations, définie par

$\sqrt{\frac{1}{K} \sum_{k = 1}^{K} {({\hat{EQMP}}_{i, k} - {EQMP}_{i})}^{2}}$

pour le $i^{e}$ petit domaine, où ${EQMP}_{i}$ est l'EQMP réelle pour le $i^{e}$ petit domaine (qui ne dépend pas de $k),$ évaluée sur l'ensemble des simulations, et ${\hat{EQMP}}_{i, k}$ est l'estimation de l'EQMP basée sur le $k^{e}$ ensemble de données simulé. Nous considérons $B = 100$ comme étant le nombre d'échantillons bootstrap utilisés pour évaluer l'estimateur de l'EQMP, (3.3). Tous les résultats sont basés sur 1 000 simulations. On voit que, globalement, les résultats s'améliorent quand $n_{i}$ ou $m$ augmente, mais en ce qui concerne le biais relatif en pourcentage (BR %), l'amélioration est plus universelle, ou efficace, quand $n_{i}$ augmente. Cela tient principalement au fait que, quand $n_{i}$ augmente, l'échantillon est une meilleure approximation de la population; d'où, la distribution bootstrap est une meilleure approximation de la distribution de la population. En outre, notons que, selon le domaine, le signe du BR peut être positif ou négatif. Cela tient principalement aux différences d'un domaine à l'autre (rappelons que les populations sont fixes) ainsi qu'aux erreurs bootstrap. Pour obtenir certaines mesures globales, nous donnons la moyenne et l'écart-type (é.-t.) des biais relatifs en pourcentage (BR %) sur les dix petits domaines définis comme il suit : $m = 10, n_{i} = 5 :$ moyenne $= 4,2 %,$ é.-t. $= 14,8 %; m = 10,$ $n_{i} = 10 :$ moyenne $= 1,5 %,$ é.-t. $= 4,2 %; m = 20, n_{i} = 5 :$ moyenne $= - 0,6 %,$ é.-t. $= 8,1 % .$ Les boîtes à moustache pour BR % sont présentées à la figure 3.1. Les graphiques illustrent aussi le schéma d'amélioration. Par ailleurs, en ce qui concerne la REQM, l'amélioration est beaucoup plus importante quand $m$ augmente que quand $n_{i}$ augmente. Il en est ainsi parce qu'une plus grande valeur de $m$ réduit les EQMP en général; donc, naturellement, les estimations correspondantes de l'EQMP diminuent également. Autrement dit, l'estimateur ainsi que le paramètre (l'EQMP) diminuent, ce qui se traduit habituellement par une réduction de la REQM. Le sommaire et les boîtes à moustache pour la REQM sont omis.

En outre, au tableau 3.1, le BR en % et la REQM fluctuent d'un domaine à l'autre, ce qui s'explique surtout par les différences de domaine en domaine. Rappelons que les populations des petits domaines sont générées chacune à partir d'une population de taille $N_{i} =$ 1 000, puis fixées tout au long de la simulation. Bien que les superpopulations utilisées pour générer les populations des petits domaines, y compris $X$ et $Y,$ soient les mêmes, il persiste certaines différences entre les populations finies générées, en particulier parce que la taille de population, $N_{i},$ n'est pas très grande.

Tableau 3.1
Propriétés empiriques de $\hat{EQMP}$
Sommaire du tableau
Le tableau montre les résultats de Propriétés empiriques de MATH0. Les données sont présentées selon $m$ (titres de rangée) et $n_{i}$ , $i$ , EQMP, $\hat{EQMP}$ , BR %, REQM, $i$ et $\hat{EQMP}$ (figurant comme en-tête de colonne).
$m$	$n_{i}$	$i$	EQMP	$\hat{EQMP}$	BR %	REQM	$i$	EQMP	$\hat{EQMP}$	BR %	REQM
10	5	1	0,041	0,042	4,5	0,103	6	0,034	0,043	26,3	0,070
10	10	1	0,036	0,036	-0,4	0,068	6	0,034	0,036	6,4	0,070
20	5	1	0,031	0,032	4,1	0,051	6	0,028	0,031	12,5	0,046
10	5	2	0,046	0,038	-16,1	0,078	7	0,032	0,040	25,4	0,078
10	10	2	0,035	0,033	-4,1	0,078	7	0,033	0,034	2,7	0,068
20	5	2	0,031	0,029	-7,2	0,050	7	0,030	0,031	3,6	0,055
10	5	3	0,038	0,042	10,2	0,121	8	0,042	0,042	-0,4	0,150
10	10	3	0,037	0,036	-1,7	0,091	8	0,033	0,035	7,5	0,067
20	5	3	0,031	0,032	4,4	0,052	8	0,030	0,031	4,1	0,058
10	5	4	0,056	0,052	-7,6	0,121	9	0,050	0,042	-15,0	0,074
10	10	4	0,037	0,040	6,3	0,072	9	0,034	0,034	-1,0	0,063
20	5	4	0,040	0,035	-11,3	0,068	9	0,034	0,030	-11,1	0,049
10	5	5	0,033	0,037	11,8	0,066	10	0,041	0,043	3,1	0,082
10	10	5	0,032	0,033	2,5	0,066	10	0,034	0,033	-2,9	0,073
20	5	5	0,024	0,025	2,9	0,052	10	0,035	0,033	-7,9	0,062

Figure 3.1 Boîtes à moustache de BR %. $1 : m = 10, n_{i} = 5; 2 : m = 10, n_{i} = 10; 3 : m = 20, n_{i} = 5.$

Figure 3.1

Description de la figure 3.1

Nous concluons la présente section par certains commentaires de nature théorique. Bien que des études approfondies de l'estimation de l'EQMP dans le contexte de l'EPD aient été effectuées depuis la publication de l'article fondateur de Prasad et Rao (Prasad et Rao 1990), la grande majorité de ces travaux était axés sur l'EQMP basée sur un modèle. Voir, par exemple, Datta, Kubokawa, Molina et Rao (2011), Lahiri (2012), et Torabi et Rao (2012) pour certains travaux récents sur l'estimation de l'EQMP basée sur le plan de sondage en EPD. Comme il est mentionné dans Jiang et coll. (2011), sous une spécification éventuellement inexacte du modèle, l'EQMP au niveau du domaine basée sur un modèle n'est pas estimable de manière convergente, et cela vaut également pour l'EQMP au niveau du domaine basée sur le plan de sondage. En effet, quand le modèle est mal spécifié en ce qui concerne la fonction moyenne, l'EQMP n'est pas une fonction d'un nombre fini de paramètres (tel que $β, γ$ et $σ_{e}^{2}) .$ En fait, comme nous travaillons sous spécification éventuellement inexacte du modèle, les quantités telles que ${\bar{Y}}_{i}^{2},1 \leq i \leq m$ interviennent dans les expressions des EQMP au niveau du domaine, qui devraient toutes être traitées comme des paramètres inconnus. En outre, la taille effective de l'échantillon pour l'estimation de ${\bar{Y}}_{i}^{2}$ est $n_{i},$ si le modèle supposé est défaillant. Il s'ensuit que ${\bar{Y}}_{i}^{2}$ ne peut pas être estimé de manière convergente en utilisant les données provenant du domaine seulement si $n_{i}$ est borné. Généralement parlant, si l'EQMP peut être estimée de manière convergente, la différence entre l'estimateur de l'EQMP et l'EQMP est d'ordre $O_{P} (m^{- 1 / 2});$ par conséquent, le biais est habituellement d'ordre $O (m^{- 1})$ sans correction du biais. Par ailleurs, si l'EQMP (au niveau du domaine) ne peut pas être estimée de manière convergente, la différence entre l'estimateur de l'EQMP et l'EQMP est habituellement d'ordre $O_{P} {{(m \land n_{i})}^{- 1 / 2}},$ où $m \land n = \min (m, n),$ d'où le biais est habituellement $O {{(m \land n_{i})}^{- 1}},$ sans la correction du biais. L'estimateur bootstrap de l'EQMP, $\hat{EQMP},$ possède la dernière propriété, en plus du fait qu'il est toujours non négatif. Bien qu'il soit possible de corriger le biais de $\hat{EQMP}$ afin de réduire l'ordre du biais à $o {{(m \land n_{i})}^{- 1}}$ (par exemple, Hall et Maiti 2006), la propriété de non-négativité peut disparaître après la correction du biais. Compte tenu de la discussion qui précède, il semble que, sous spécification éventuellement inexacte du modèle, il est raisonnable de définir l'absence de biais d'ordre un et d'ordre deux d'un estimateur de l'EQMP au niveau du domaine en termes de $O {{(m \land n_{i})}^{- 1}}$ et $o {{(m \land n_{i})}^{- 1}},$ au lieu des $O (m^{- 1})$ et $o (m^{- 1})$ classiques (par exemple, Rao 2003).

Précédent | Suivant

Date de modification :: 2015-11-27

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

3. Estimation de l'EQMP au niveau du domaine