1. Introduction
Jiming Jiang, Thuan Nguyen et J. Sunil Rao
Précédent | Suivant
La meilleure prédiction observée (MPO; Jiang, Nguyen et Rao 2011) est une nouvelle méthode d'estimation sur petits domaines
(EPD; par exemple, Rao 2003). Elle
est motivée par le fait que le meilleur prédicteur linéaire sans biais (MPLSB) est
un hybride de la meilleure prédiction et de l'estimation du maximum de
vraisemblance (MV), alors qu'habituellement en EPD, on s'intéresse surtout à un
problème de prédiction. Dans le cas de la méthode MPO, l'estimation du
paramètre est basée sur des considérations purement prédictives, menant à ce
que l'on appelle le meilleur estimateur prédictif (MEP) des paramètres du
modèle. Le développement de la méthode MPO dans Jiang
et coll. (2011) est
axé principalement sur le modèle de Fay-Herriot
(Fay et Herriot 1979). Une autre classe
importante de modèles d'EPD est le modèle de régression à erreurs emboîtées (REE)
introduit par Battese, Harter et Fuller
(1988). Le modèle REE peut être exprimé sous la forme
où les
sont les effets
aléatoires au niveau du domaine et les
sont les erreurs
qui sont supposés être indépendants et suivre une loi normale de moyenne nulle
et de variance
et
où
et
sont inconnues. Sous
le modèle REE, la moyenne de petit domaine, en supposant que la population est
infinie, est
pour le
petit domaine, où
est la moyenne
de population des
(supposée connue; par exemple,
Rao 2003). On voit que
est
un effet mixte (linéaire). Soit
Dès lors, le meilleur
prédicteur (MP) de
s'obtient en
minimisant l'erreur quadratique moyenne de prédiction (EQMP) basée sur le
modèle
où
désigne l'espérance
sous le modèle REE supposé, et
désigne un prédicteur
de
En vertu de la
théorie gaussienne (par exemple, Jiang
2007, page 237), le MP est donné par
où
et
sont les paramètres
réels,
et
La méthode
classique du meilleur prédicteur linéaire sans biais (MPLSB) est basée sur
l'équation (1.3) dans laquelle
est remplacé par
son estimateur du MV, en supposant que
est connu; et le
MPLSB empirique (MPLSBE) est dérivé du MPLSB en remplaçant
par un estimateur
convergent.
Dans la méthode MPO (Jiang et coll.
2011), des estimateurs de
et
nommément le MEP, sont
calculés en minimisant l'EQMP basée sur le plan observée, ce qui diffère
entièrement des méthodes conventionnelles, dont celles du maximum de
vraisemblance (MV) et du maximum de vraisemblance restreint (MVR ou REML en
anglais; par exemple, Jiang 2007). Tout
au long du présent exposé, nous supposons que les échantillons sont tirés de
chaque petit domaine par échantillonnage aléatoire simple sans remise, ce qui
est le fondement de l'approche basée sur le plan de sondage. Écrivons Notons qu'en pratique, les populations
des petits domaines sont finies. À l'instar de Jiang
et coll. (2011), nous
considérons un modèle REE de superpopulation. Supposons que les sous-populations
de réponses
et les données auxiliaires
sont des réalisations
provenant des superpopulations correspondantes qui sont supposées satisfaire le
modèle REE. Il s'ensuit que
où
et
satisfont les mêmes hypothèses que
dans (1.1). Sous les conditions de population finie, la moyenne de petit
domaine réelle est
(par opposition à
sous les conditions
de population infinie) pour
En outre, écrivons
Alors, la
version en population finie du MP (1.3) a pour expression (par exemple,
Rao 2003, section 7.2.5)
où
désigne l'espérance
(conditionnelle) sous le modèle REE de superpopulation supposé, et
et
sont les
paramètres réels. Notons que le MP est dépendant du modèle.
En pratique, tout modèle supposé est
sujet à l'erreur de spécification. Jiang et coll. (2011) considèrent
la spécification inexacte de la fonction moyenne, tout en supposant que la structure
de variance-covariance des données est spécifiée correctement. Cependant, en
pratique, cette dernière peut elle aussi être mal spécifiée. Dans le présent
article, nous étendons la spécification éventuellement inexacte du modèle à la
fonction moyenne ainsi qu'à la structure de variance-covariance. Une
spécification inexacte possible de la structure de variance-covariance est l'hétéroscédasticité,
définie en termes de
pour le domaine
où les
sont inconnues et éventuellement
différentes. Cependant, en dépit de la spécification éventuellement inexacte du
modèle, il existe des raisons de ne pas pouvoir « abandonner » le modèle
supposé, et le MP basé sur le modèle. Premièrement, le modèle supposé et le MP sont
relativement simples à utiliser, et par conséquent, attrayants pour les
praticiens; en particulier, ils s'appuient sur une relation simple (linéaire) entre
la réponse et les autres variables. Par exemple, contrairement à (1.4), qui
peut être sujet à une spécification inexacte de la fonction moyenne,
on peut supposer que
où les
sont des constantes
inconnues, entièrement non spécifiées. Le dernier modèle est presque toujours
exact, mais est inutile, parce qu'il n'utilise aucune relation entre
et
En fait, en pratique, si des données
auxiliaires sont disponibles, il est souvent considéré « politiquement
incorrect » de ne pas les utiliser. Deuxièmement, même si l'on s'inquiète de
la spécification inexacte du modèle, on manque souvent de preuves (statistiques)
des raisons pour lesquelles une autre spécification est plus raisonnable ou qu'une
complication est nécessaire. Par exemple, on émet parfois des réserves quant à
l'hypothèse de normalité, alors que rien n'indique pourquoi une autre loi,
disons,
est plus raisonnable. En
guise d'autre exemple, supposons que l'on ajuste un modèle quadratique et que
le coefficient du terme quadratique soit non significatif. Dans ces conditions,
il n'est pas certain que la complication de la modélisation quadratique comparativement
à la modélisation linéaire soit nécessaire. Par conséquent, dans le présent
article, nous ne tentons pas de modifier le modèle supposé, ni le MP, (1.5), basé
sur le modèle supposé. En particulier, nous supposons que nous avons un seul paramètre,
dans (1.5) pour le ratio
au lieu de considérer un modèle
REE hétéroscédastique semblable à ceux de Jiang et
Nguyen (2012) et Nandram et Sun
(2012). Notre objectif est de trouver un meilleur moyen d'estimer les paramètres,
sous le modèle supposé qui
interviennent dans (1.5), de sorte que le MP résultant, (1.5), soit plus robuste
aux spécifications inexactes du modèle. Nous le faisons en considérant une EQMP
objective qui ne dépend pas du modèle, définie comme il suit. Soit
le vecteur des moyennes de
petit domaine, et
le vecteur des MP. Notons que
dépend
de
c'est-à-dire
L'EQMP basée sur le plan est
Notons
que l'espérance
dans (1.6) est différente
de
dans (1.2),
(1.3) ou (1.5) en ce sens que
est entièrement
exempte d'un modèle; autrement dit, dans (1.6), l'espérance est calculée par
rapport à l'échantillonnage aléatoire simple dans les domaines, ce qui n'a rien
à voir avec le modèle supposé. Jiang et coll. (2011) ont
montré que l'EQMP donnée en (1.6) possède une autre expression, qui est une
idée clé de le mpO. Nommément, nous avons
où
ne dépend pas de
et
Dans
(1.7),
est considéré comme
un vecteur de paramètres, plutôt que le vecteur des paramètres réels,
avec
En outre,
est un estimateur
sans biais sous le plan de
dont l'expression
est :
Le
MEP de
est le minimiseur
de
par rapport à
Pour faciliter
la lecture, les calculs en vue d'établir (1.7) et (1.8) sont présentés en
annexe. Notons aussi que le MP est fondé sur l'EQMP (basée sur le modèle) au
niveau du domaine (de sorte qu'elle est optimale pour chaque petit domaine, si
le modèle supposé est exact), tandis que le MEP est fondé sur l'EQMP globale (basée
sur le plan de sondage). Il en est ainsi parce que nous ne voulons pas que
l'estimateur de
dépende du
domaine. L'une des raisons est que les estimateurs dépendants du domaine sont
souvent instables en raison de la petite taille de l'échantillon du domaine, tandis
qu'un estimateur obtenu en utilisant tous les domaines, tel que le MEP défini
dans le présent article, a tendance à être beaucoup plus stable.
La prise en considération de l'EQMP basée
sur le plan de sondage, comme nous le faisons dans le présent article, est due au
fait qu'elle est entièrement exempte de modélisation. Notons que, dans Jiang et coll.
(2011), où les auteurs ont considéré le modèle
de Fay-Herriot, il était impossible d'évaluer
l'EQMP basée sur le plan de sondage, parce que les échantillons réels provenant
des domaines n'étaient pas disponibles (seuls des résumés des données étaient
disponibles au niveau du domaine). Donc, les auteurs ont plutôt considéré l'EQMP
basée sur un modèle sous le modèle le plus général, ou le moins contraignant, qui
repose simplement sur l'hypothèse que la fonction moyenne est
où
est complètement inconnue, pour
le
petit domaine. En général, il
existe une « règle empirique » pour déterminer le type d'EQMP que
l'on doit prendre en considération. Essentiellement, la règle est que l'EQMP doit
être exempte de modélisation dans la mesure du possible, afin qu'elle soit objective
et (relativement) robuste aux erreurs de spécification du modèle.
À la section 2, nous considérons
un exemple simulé dans lequel nous comparons les propriétés prédictives basées
sur le plan de sondage de le mpO à celles du MPLSBE. Des comparaisons de ce
genre ont été faites dans Jiang et coll. (2011) sous le modèle
de Fay-Herriot, mais n'ont jamais été
effectuées sous le modèle REE. En outre, les conditions de simulation comprennent
la spécification inexacte à la fois de la fonction moyenne et de la fonction variance,
ce qui, de nouveau, n'avait pas été considéré auparavant. Les résultats des
simulations montrent que le mpO peut donner de meilleurs résultats que le
MPLSBE non seulement en ce qui concerne l'EQMP globale
basée sur le plan, mais aussi l'EQMP au
niveau du domaine (basée sur le plan) pour chacun d'un grand nombre de petits
domaines. Il s'agit clairement d'une propriété inédite. Par exemple, Jiang et coll.
(2011) ont montré que le mpO donnait de meilleurs résultats que le MPLSBE pour
l'EQMP globale, mais pas nécessairement pour chaque petit domaine.
L'estimation des EQMP au niveau des
domaines, ici les EQMP basées sur le plan de sondage, représente un important
problème d'intérêt pratique. À la section 3, nous proposons un estimateur bootstrap de l'EQMP au niveau du domaine qui a
l'avantage d'être simple et toujours positif. Nous décrivons une autre étude
par simulation exécutée pour évaluer la performance de l'estimateur de l'EQMP
proposé. Une application au Television School and Family Smoking Prevention and
Cessation Project (TVSFP) est discutée à la section 4.
Précédent | Suivant