3. Estimation de l'EQMP au niveau du domaine
Jiming Jiang, Thuan Nguyen et J. Sunil Rao
Précédent | Suivant
L'EQMP au niveau du domaine basée sur le plan est définie comme étant
où, ici
et dans la suite de l'exposé, désigne l'espérance basée sur le plan, et
est la MPO de
donnée par (1.5)
avec
remplacé par son MEP,
Comme l'ont
souligné Jiang et coll. (2011), il est difficile d'obtenir un estimateur
de l'EQMP au niveau du domaine sans biais d'ordre deux sous une spécification
éventuellement inexacte du modèle. En effet, les techniques asymptotiques
conventionnelles, telles que la méthode de linéarisation de Prasad-Rao (Prasad et Rao 1990) et la méthode du
jackknife (Jiang, Lahiri et Wan 2002), ne
s'appliquent plus quand le modèle sous-jacent est spécifié incorrectement. Jiang et coll. (2011) ont utilisé une technique
différente pour obtenir un estimateur de l'EQMP par linéarisation qui est sans
biais d'ordre deux. Cependant, il n'est pas garanti que cet estimateur soit non
négatif. En outre, son terme principal est une fonction
des données au
niveau du domaine plutôt que de toutes les données. Plus précisément, le terme
principal de l'EQMP de
où
est la MPO de la
moyenne de petit
domaine,
est
sous le modèle
de Fay-Herriot, où
est l'observation
provenant du
domaine (l'estimateur
direct),
est la variance d'échantillonnage
(connue),
et
est le MEP de la
variance de l'effet aléatoire au niveau du domaine. Il s'agit du terme
principal parce qu'il est d'ordre
tandis que les
autres termes de l'expression de l'EQMP estimée sont d'ordre
ou inférieur. Comme
est une
observation provenant d'un seul petit domaine, sa variance est assez grande, c'est-à-dire
d'ordre
si
est borné. Par
ailleurs, le MEP
est obtenu en
utilisant les données provenant de tous les petits domaines et, si bien que sa
variance est relativement parlant (beaucoup) plus petite; et
est un mélange
de
et des MEP. Dès
lors,
est le terme qui
contribue le plus à la variance, qui peut être assez grande en raison de la
variation de
D'autre part, le
terme
peut être négatif.
Par conséquent, en raison de la forte variation de
il existe une
probabilité, qui ne disparaît pas (à mesure que
augmente), que le terme principal,
donc l'EQMP estimée, soit négatif. Si nous adoptons une approche de
linéarisation similaire sous le modèle REE, nous pouvons calculer un estimateur
de l'EQMP sans biais d'ordre deux faisant intervenir
dans le terme
principal, qui est basé sur des données provenant d'un seul petit domaine. Alors,
de nouveau, nous nous heurtons au problème d'une forte variation et d'une probabilité
qui ne disparaît pas d'une valeur négative de l'estimateur de l'EQMP.
Jiang et coll.
(2011) ont aussi utilisé une méthode du bootstrap paramétrique pour obtenir un
autre estimateur de l'EQMP; cependant, la justification de l'utilisation de
cette méthode est douteuse vu la possibilité que la spécification du modèle
soit inexacte. Ici, nous proposons d'utiliser le bootstrap non paramétrique conformément à l'idée originale d'Efron (Efron 1979). La méthode ne s'appuie
pas sur le modèle REE et n'est donc pas affectée par la spécification inexacte
du modèle. Par conséquent, la méthode courante est mieux justifiée. En outre, il
est garanti que l'estimateur de l'EQMP proposé est non négatif, et positif avec
une probabilité de 1, ce qui représente un avantage considérable par
rapport à l'estimateur de l'EQMP par linéarisation de Jiang et coll.
(2011).
Supposons que les sous-populations de
petit domaine, ou les
sont suffisamment grandes pour
que l'échantillonnage à partir de ces sous-populations puisse être traité
approximativement comme étant effectué avec remise. Soit
les échantillons (originaux)
provenant du
petit domaine,
Nous tirons alors des échantillons,
avec remise, de
indépendamment pour
Supposons que
échantillons bootstrap sont tirés, donnant les échantillons
La version sous bootstrap du MP (1.5) est
où
et
sont les mêmes paramètres
de population
et
respectivement, que pour la population
originale. Notons que les échantillons originaux de
sont supposés
satisfaire le même modèle REE (1.4), avec
remplacé par
Puisque les échantillons
originaux sont traités comme étant la population bootstrap, suivant l'idée originale d'Efron,
les paramètres de population,
sont les mêmes
pour les échantillons bootstrap que pour
les échantillons originaux. Néanmoins, comme nous l'avons mentionné, la
procédure bootstrap proposée est non paramétrique
en ce sens que le modèle supposé, (1.4), ne joue aucun rôle dans le tirage des échantillons bootstrap. En particulier, les MEP de
et
basés sur les échantillons
originaux, ne sont utilisés nulle part dans la procédure bootstrap; et les quantités d'intérêt dans la
population sont
dont les
analogues bootstrap sont
Cela diffère du bootstrap paramétrique de Jiang et coll.
(2011), où les MEP des paramètres du
modèle, basés sur les échantillons originaux, sont utilisés pour tirer les
échantillons bootstrap sous le modèle
supposé. Notons aussi que, parce que les
sont connus, ils
sont traités comme des constantes connues, et par conséquent ne changent pas
durant la procédure bootstrap (cela n'a
aucun sens d'« estimer » quelque chose que l'on connaît déjà). À part
cela, la procédure suit de près l'idée du bootstrap
classique (par exemple, Efron et
Tibshirani (1993); voir aussi Chatterjee,
Lahiri et Li (2008) pour une application à l'estimation sur petits
domaines). L'estimateur bootstrap de
est
où
est (3.2) avec
remplacés par leurs MEP basés sur
les échantillons bootstrap.
Nota. On pourrait s'inquiéter du fait
que, comme les
peuvent être
petits dans les problèmes d'EPD types, il puisse ne pas exister de nombreux échantillons
bootstrap distincts pour chaque petit
domaine. Cependant, les données se rapportent non pas à un seul, mais à un
grand nombre de petits domaines. Quand tous les petits domaines sont combinés, il
reste encore un grand nombre d'échantillons bootstrap
distincts, même si les
sont
petits.
Nous évaluons les propriétés de
l'estimateur de l'EQMP proposé en considérant l'échantillon simulé de la sous-section 2.1
avec mais sous des tailles
d'échantillon plus petites. C'est-à-dire que nous prenons pour point de départ
la taille d'échantillon de base
et
puis nous augmentons
pour passer de 5 à 10, ou
nous augmentons
pour passer de 10 à 20. Nous
considérons d'abord le biais sous le plan de sondage de l'estimateur
Nous générons deux
populations finies que nous fixons ensuite de manière que la population finie
pour
soit une sous-population de
la population finie pour
Le tableau 3.1 donne, pour
les dix premiers petits domaines (il s'agit de tous les petits domaines qui
sont communs sous différentes valeurs de
l'EQMP réelle simulée (EQMP),
obtenue de la même façon qu'à la section 2, la moyenne simulée de
et le biais relatif en pourcentage
(BR %) défini comme étant
où l'espérance
est basée sur les simulations. Une autre mesure de performance est la racine
carrée de l'erreur quadratique moyenne (REQM) sur l'ensemble des simulations, définie
par
pour le
petit domaine, où
est l'EQMP réelle
pour le
petit domaine (qui
ne dépend pas de
évaluée sur
l'ensemble des simulations, et
est l'estimation
de l'EQMP basée sur le
ensemble de
données simulé. Nous considérons
comme étant le
nombre d'échantillons bootstrap utilisés
pour évaluer l'estimateur de l'EQMP, (3.3). Tous les résultats sont basés sur 1 000 simulations.
On voit que, globalement, les résultats s'améliorent quand
ou
augmente, mais en
ce qui concerne le biais relatif en pourcentage (BR %), l'amélioration est plus
universelle, ou efficace, quand
augmente. Cela
tient principalement au fait que, quand
augmente, l'échantillon
est une meilleure approximation de la population; d'où, la distribution bootstrap est une meilleure approximation de la
distribution de la population. En outre, notons que, selon le domaine, le signe
du BR peut être positif ou négatif. Cela tient principalement aux différences
d'un domaine à l'autre (rappelons que les populations sont fixes) ainsi qu'aux
erreurs bootstrap. Pour obtenir certaines
mesures globales, nous donnons la moyenne et l'écart-type (é.-t.) des biais
relatifs en pourcentage (BR %) sur les dix petits domaines définis
comme il suit :
moyenne
é.-t.
moyenne
é.-t.
moyenne
é.-t.
Les boîtes à moustache pour BR % sont présentées
à la figure 3.1. Les graphiques illustrent aussi le schéma d'amélioration.
Par ailleurs, en ce qui concerne la REQM, l'amélioration est beaucoup plus
importante quand
augmente que
quand
augmente. Il en
est ainsi parce qu'une plus grande valeur de
réduit les EQMP en
général; donc, naturellement, les estimations correspondantes de l'EQMP diminuent
également. Autrement dit, l'estimateur ainsi que le paramètre (l'EQMP) diminuent,
ce qui se traduit habituellement par une réduction de la REQM. Le sommaire et les
boîtes à moustache pour la REQM sont omis.
En outre, au tableau 3.1, le BR
en % et la REQM fluctuent d'un domaine à l'autre, ce qui s'explique
surtout par les différences de domaine en domaine. Rappelons que les populations
des petits domaines sont générées chacune à partir d'une population de taille
1 000, puis fixées tout
au long de la simulation. Bien que les superpopulations utilisées pour générer les
populations des petits domaines, y compris
et
soient les mêmes, il persiste
certaines différences entre les populations finies générées, en particulier
parce que la taille de population,
n'est pas très grande.
Tableau 3.1
Propriétés empiriques de
Sommaire du tableau
Le tableau montre les résultats de Propriétés empiriques de MATH0. Les données sont présentées selon
(titres de rangée) et , , EQMP, , BR %, REQM, et
(figurant comme en-tête de colonne).
|
|
|
|
EQMP |
|
BR % |
REQM |
|
EQMP |
|
BR % |
REQM |
| 10 |
5 |
1 |
0,041 |
0,042 |
4,5 |
0,103 |
6 |
0,034 |
0,043 |
26,3 |
0,070 |
| 10 |
10 |
1 |
0,036 |
0,036 |
-0,4 |
0,068 |
6 |
0,034 |
0,036 |
6,4 |
0,070 |
| 20 |
5 |
1 |
0,031 |
0,032 |
4,1 |
0,051 |
6 |
0,028 |
0,031 |
12,5 |
0,046 |
| 10 |
5 |
2 |
0,046 |
0,038 |
-16,1 |
0,078 |
7 |
0,032 |
0,040 |
25,4 |
0,078 |
| 10 |
10 |
2 |
0,035 |
0,033 |
-4,1 |
0,078 |
7 |
0,033 |
0,034 |
2,7 |
0,068 |
| 20 |
5 |
2 |
0,031 |
0,029 |
-7,2 |
0,050 |
7 |
0,030 |
0,031 |
3,6 |
0,055 |
| 10 |
5 |
3 |
0,038 |
0,042 |
10,2 |
0,121 |
8 |
0,042 |
0,042 |
-0,4 |
0,150 |
| 10 |
10 |
3 |
0,037 |
0,036 |
-1,7 |
0,091 |
8 |
0,033 |
0,035 |
7,5 |
0,067 |
| 20 |
5 |
3 |
0,031 |
0,032 |
4,4 |
0,052 |
8 |
0,030 |
0,031 |
4,1 |
0,058 |
| 10 |
5 |
4 |
0,056 |
0,052 |
-7,6 |
0,121 |
9 |
0,050 |
0,042 |
-15,0 |
0,074 |
| 10 |
10 |
4 |
0,037 |
0,040 |
6,3 |
0,072 |
9 |
0,034 |
0,034 |
-1,0 |
0,063 |
| 20 |
5 |
4 |
0,040 |
0,035 |
-11,3 |
0,068 |
9 |
0,034 |
0,030 |
-11,1 |
0,049 |
| 10 |
5 |
5 |
0,033 |
0,037 |
11,8 |
0,066 |
10 |
0,041 |
0,043 |
3,1 |
0,082 |
| 10 |
10 |
5 |
0,032 |
0,033 |
2,5 |
0,066 |
10 |
0,034 |
0,033 |
-2,9 |
0,073 |
| 20 |
5 |
5 |
0,024 |
0,025 |
2,9 |
0,052 |
10 |
0,035 |
0,033 |
-7,9 |
0,062 |
Figure 3.1 Boîtes à moustache de BR %.

Description de la figure 3.1
Nous concluons la présente section par
certains commentaires de nature théorique. Bien que des études approfondies de l'estimation
de l'EQMP dans le contexte de l'EPD aient été effectuées depuis la publication
de l'article fondateur de Prasad et Rao (Prasad et
Rao 1990), la grande majorité de ces travaux était axés sur l'EQMP basée
sur un modèle. Voir, par exemple, Datta,
Kubokawa, Molina et Rao (2011), Lahiri (2012), et Torabi et Rao (2012) pour
certains travaux récents sur l'estimation de l'EQMP basée sur le plan de
sondage en EPD. Comme il est mentionné dans Jiang
et coll. (2011), sous
une spécification éventuellement inexacte du modèle, l'EQMP au niveau du
domaine basée sur un modèle n'est pas estimable de manière convergente, et cela
vaut également pour l'EQMP au niveau du domaine basée sur le plan de sondage. En
effet, quand le modèle est mal spécifié en ce qui concerne la fonction moyenne,
l'EQMP n'est pas une fonction d'un nombre fini de paramètres (tel que
et
En fait, comme nous
travaillons sous spécification éventuellement inexacte du modèle, les quantités
telles que
interviennent dans les expressions des EQMP au niveau du domaine, qui devraient
toutes être traitées comme des paramètres inconnus. En outre, la taille
effective de l'échantillon pour l'estimation de
est
si le modèle supposé est
défaillant. Il s'ensuit que
ne peut pas être estimé de
manière convergente en utilisant les données provenant du domaine seulement si
est borné. Généralement
parlant, si l'EQMP peut être estimée de manière convergente, la différence entre
l'estimateur de l'EQMP et l'EQMP est d'ordre
par conséquent, le biais est habituellement
d'ordre
sans correction du biais. Par
ailleurs, si l'EQMP (au niveau du domaine) ne peut pas être estimée de manière
convergente, la différence entre l'estimateur de l'EQMP et l'EQMP est
habituellement d'ordre
où d'où le biais est habituellement
sans la correction du biais. L'estimateur
bootstrap de l'EQMP,
possède la dernière propriété,
en plus du fait qu'il est toujours non négatif. Bien qu'il soit possible de
corriger le biais de
afin de réduire l'ordre du biais
à
(par exemple, Hall et Maiti 2006), la propriété de non-négativité peut
disparaître après la correction du biais. Compte tenu de la discussion qui
précède, il semble que, sous spécification éventuellement inexacte du modèle, il
est raisonnable de définir l'absence de biais d'ordre un et d'ordre deux d'un estimateur
de l'EQMP au niveau du domaine en termes de
et
au lieu des
et
classiques (par exemple,
Rao 2003).
Précédent | Suivant