Recherche par

1. Introduction

Jiming Jiang, Thuan Nguyen et J. Sunil Rao

La meilleure prédiction observée (MPO; Jiang, Nguyen et Rao 2011) est une nouvelle méthode d'estimation sur petits domaines (EPD; par exemple, Rao 2003). Elle est motivée par le fait que le meilleur prédicteur linéaire sans biais (MPLSB) est un hybride de la meilleure prédiction et de l'estimation du maximum de vraisemblance (MV), alors qu'habituellement en EPD, on s'intéresse surtout à un problème de prédiction. Dans le cas de la méthode MPO, l'estimation du paramètre est basée sur des considérations purement prédictives, menant à ce que l'on appelle le meilleur estimateur prédictif (MEP) des paramètres du modèle. Le développement de la méthode MPO dans Jiang et coll. (2011) est axé principalement sur le modèle de Fay-Herriot (Fay et Herriot 1979). Une autre classe importante de modèles d'EPD est le modèle de régression à erreurs emboîtées (REE) introduit par Battese, Harter et Fuller (1988). Le modèle REE peut être exprimé sous la forme

$y_{i j} = {x^{'}}_{i j} β + v_{i} + e_{i j}, (1.1)$

$i = 1, \dots, m, j = 1, \dots, n_{i},$ où les $v_{i}$ sont les effets aléatoires au niveau du domaine et les $e_{i j}$ sont les erreurs qui sont supposés être indépendants et suivre une loi normale de moyenne nulle et de variance $var (v_{i}) = σ_{v}^{2}$ et $var (e_{i j}) = σ_{e}^{2},$ où $σ_{v}^{2}$ et $σ_{e}^{2}$ sont inconnues. Sous le modèle REE, la moyenne de petit domaine, en supposant que la population est infinie, est $θ_{i} = {\bar{X}}^{'}_{i} β + v_{i}$ pour le $i^{e}$ petit domaine, où ${\bar{X}}_{i}$ est la moyenne de population des $x_{i j}$ (supposée connue; par exemple, Rao 2003). On voit que $θ_{i}$ est un effet mixte (linéaire). Soit $γ = σ_{v}^{2} / σ_{e}^{2} .$ Dès lors, le meilleur prédicteur (MP) de $θ_{i}$ s'obtient en minimisant l'erreur quadratique moyenne de prédiction (EQMP) basée sur le modèle

$E_{M} {({\overset{⌣}{θ}}_{i} - θ_{i})}^{2}, (1.2)$

où $E_{M}$ désigne l'espérance sous le modèle REE supposé, et ${\overset{⌣}{θ}}_{i}$ désigne un prédicteur de $θ_{i} .$ En vertu de la théorie gaussienne (par exemple, Jiang 2007, page 237), le MP est donné par

${\tilde{θ}}_{i} = E_{M} (θ_{i} | y_{i}) = {\bar{X}}^{'}_{i} β + \frac{n_{i} γ}{1 + n_{i} γ} ({\bar{y}}_{i \cdot} - {\bar{x}}^{'}_{i \cdot} β), (1.3)$

où $y_{i} = {(y_{i j})}_{1 \leq j \leq n_{i}}, β$ et $γ$ sont les paramètres réels, ${\bar{y}}_{i \cdot} = n_{i}^{- 1} \sum_{j = 1}^{n_{i}} y_{i j}$ et ${\bar{x}}_{i \cdot} = n_{i}^{- 1} \sum_{j = 1}^{n_{i}} x_{i j} .$ La méthode classique du meilleur prédicteur linéaire sans biais (MPLSB) est basée sur l'équation (1.3) dans laquelle $β$ est remplacé par son estimateur du MV, en supposant que $γ$ est connu; et le MPLSB empirique (MPLSBE) est dérivé du MPLSB en remplaçant $γ$ par un estimateur convergent.

Dans la méthode MPO (Jiang et coll. 2011), des estimateurs de $β$ et $γ,$ nommément le MEP, sont calculés en minimisant l'EQMP basée sur le plan observée, ce qui diffère entièrement des méthodes conventionnelles, dont celles du maximum de vraisemblance (MV) et du maximum de vraisemblance restreint (MVR ou REML en anglais; par exemple, Jiang 2007). Tout au long du présent exposé, nous supposons que les échantillons sont tirés de chaque petit domaine par échantillonnage aléatoire simple sans remise, ce qui est le fondement de l'approche basée sur le plan de sondage. Écrivons $ψ = {(β^{'}, γ)}^{'} .$ Notons qu'en pratique, les populations des petits domaines sont finies. À l'instar de Jiang et coll. (2011), nous considérons un modèle REE de superpopulation. Supposons que les sous-populations de réponses ${Y_{i k}, k = 1, \dots, N_{i}}$ et les données auxiliaires ${X_{i k l}, k = 1, \dots, N_{i}}, l = 1, \dots, p$ sont des réalisations provenant des superpopulations correspondantes qui sont supposées satisfaire le modèle REE. Il s'ensuit que

$Y_{i k} = {X^{'}}_{i k} β + v_{i} + e_{i k}, i = 1, \dots, m, k = 1, \dots, N_{i}, (1.4)$

où $β, v_{i}$ et $e_{i k}$ satisfont les mêmes hypothèses que dans (1.1). Sous les conditions de population finie, la moyenne de petit domaine réelle est $θ_{i} = {\bar{Y}}_{i} = N_{i}^{- 1} \sum_{k = 1}^{N_{i}} Y_{i k}$ (par opposition à $θ_{i} = {\bar{X}}^{'}_{i} β + v_{i}$ sous les conditions de population infinie) pour $1 \leq i \leq m .$ En outre, écrivons $r_{i} = n_{i} / N_{i} .$ Alors, la version en population finie du MP (1.3) a pour expression (par exemple, Rao 2003, section 7.2.5)

${\tilde{θ}}_{i} = E_{M} (θ_{i} | y_{i}) = {\bar{X}}^{'}_{i} β + {r_{i} + (1 - r_{i}) \frac{n_{i} γ}{1 + n_{i} γ}} ({\bar{y}}_{i \cdot} - {\bar{x}}^{'}_{i \cdot} β), (1.5)$

où $E_{M}$ désigne l'espérance (conditionnelle) sous le modèle REE de superpopulation supposé, et $β$ et $γ$ sont les paramètres réels. Notons que le MP est dépendant du modèle.

En pratique, tout modèle supposé est sujet à l'erreur de spécification. Jiang et coll. (2011) considèrent la spécification inexacte de la fonction moyenne, tout en supposant que la structure de variance-covariance des données est spécifiée correctement. Cependant, en pratique, cette dernière peut elle aussi être mal spécifiée. Dans le présent article, nous étendons la spécification éventuellement inexacte du modèle à la fonction moyenne ainsi qu'à la structure de variance-covariance. Une spécification inexacte possible de la structure de variance-covariance est l'hétéroscédasticité, définie en termes de $var (e_{i j}) = σ_{i}^{2}$ pour le domaine $i, 1 \leq i \leq m,$ où les $σ_{i}^{2}$ sont inconnues et éventuellement différentes. Cependant, en dépit de la spécification éventuellement inexacte du modèle, il existe des raisons de ne pas pouvoir « abandonner » le modèle supposé, et le MP basé sur le modèle. Premièrement, le modèle supposé et le MP sont relativement simples à utiliser, et par conséquent, attrayants pour les praticiens; en particulier, ils s'appuient sur une relation simple (linéaire) entre la réponse et les autres variables. Par exemple, contrairement à (1.4), qui peut être sujet à une spécification inexacte de la fonction moyenne, ${X^{'}}_{i k} β,$ on peut supposer que $Y_{i k} = μ_{i k} + v_{i} + e_{i k},$ où les $μ_{i k}$ sont des constantes inconnues, entièrement non spécifiées. Le dernier modèle est presque toujours exact, mais est inutile, parce qu'il n'utilise aucune relation entre $Y$ et $X .$ En fait, en pratique, si des données auxiliaires sont disponibles, il est souvent considéré « politiquement incorrect » de ne pas les utiliser. Deuxièmement, même si l'on s'inquiète de la spécification inexacte du modèle, on manque souvent de preuves (statistiques) des raisons pour lesquelles une autre spécification est plus raisonnable ou qu'une complication est nécessaire. Par exemple, on émet parfois des réserves quant à l'hypothèse de normalité, alors que rien n'indique pourquoi une autre loi, disons, $t_{5},$ est plus raisonnable. En guise d'autre exemple, supposons que l'on ajuste un modèle quadratique et que le coefficient du terme quadratique soit non significatif. Dans ces conditions, il n'est pas certain que la complication de la modélisation quadratique comparativement à la modélisation linéaire soit nécessaire. Par conséquent, dans le présent article, nous ne tentons pas de modifier le modèle supposé, ni le MP, (1.5), basé sur le modèle supposé. En particulier, nous supposons que nous avons un seul paramètre, $γ,$ dans (1.5) pour le ratio $σ_{v}^{2} / σ_{e}^{2},$ au lieu de considérer un modèle REE hétéroscédastique semblable à ceux de Jiang et Nguyen (2012) et Nandram et Sun (2012). Notre objectif est de trouver un meilleur moyen d'estimer les paramètres, $ψ,$ sous le modèle supposé qui interviennent dans (1.5), de sorte que le MP résultant, (1.5), soit plus robuste aux spécifications inexactes du modèle. Nous le faisons en considérant une EQMP objective qui ne dépend pas du modèle, définie comme il suit. Soit $θ = {(θ_{i})}_{1 \leq i \leq m}$ le vecteur des moyennes de petit domaine, et $\tilde{θ} = {[{\tilde{θ}}_{i}]}_{1 \leq i \leq m}$ le vecteur des MP. Notons que ${\tilde{θ}}_{i}$ dépend de $ψ,$ c'est-à-dire ${\tilde{θ}}_{i} = {\tilde{θ}}_{i} (ψ) .$ L'EQMP basée sur le plan est

$EQMP (\tilde{θ}) = E ({| \tilde{θ} - θ |}^{2}) = \sum_{i = 1}^{m} E {{\tilde{θ}}_{i} (ψ) - θ_{i}}^{2} . (1.6)$

Notons que l'espérance $E$ dans (1.6) est différente de $E_{M}$ dans (1.2), (1.3) ou (1.5) en ce sens que $E$ est entièrement exempte d'un modèle; autrement dit, dans (1.6), l'espérance est calculée par rapport à l'échantillonnage aléatoire simple dans les domaines, ce qui n'a rien à voir avec le modèle supposé. Jiang et coll. (2011) ont montré que l'EQMP donnée en (1.6) possède une autre expression, qui est une idée clé de le mpO. Nommément, nous avons $EQMP (\tilde{θ}) = E {Q (ψ) + \dots},$ où $\dots$ ne dépend pas de $ψ,$ et

$Q (ψ) = \sum_{i = 1}^{m} {{\tilde{θ}}_{i}^{2} (ψ) - 2 \frac{1 - r_{i}}{1 + n_{i} γ} {\bar{y}}_{i \cdot} {\bar{X}}^{'}_{i} β + b_{i} (γ) {\hat{μ}}_{i}^{2}} = \sum_{i = 1}^{m} Q_{i} . (1.7)$

Dans (1.7), $ψ$ est considéré comme un vecteur de paramètres, plutôt que le vecteur des paramètres réels, $b_{i} (γ) = 1 - 2 a_{i} (γ)$ avec $a_{i} (γ) = r_{i} + (1 - r_{i}) n_{i} γ {(1 + n_{i} γ)}^{- 1} .$ En outre, ${\hat{μ}}_{i}^{2}$ est un estimateur sans biais sous le plan de ${\bar{Y}}_{i}^{2}$ dont l'expression est :

${\hat{μ}}_{i}^{2} = \frac{1}{n_{i}} \sum_{j = 1}^{n_{i}} y_{i j}^{2} - \frac{N_{i} - 1}{N_{i} (n_{i} - 1)} \sum_{j = 1}^{n_{i}} {(y_{i j} - {\bar{y}}_{i \cdot})}^{2} . (1.8)$

Le MEP de $ψ, \hat{ψ},$ est le minimiseur de $Q (ψ)$ par rapport à $ψ .$ Pour faciliter la lecture, les calculs en vue d'établir (1.7) et (1.8) sont présentés en annexe. Notons aussi que le MP est fondé sur l'EQMP (basée sur le modèle) au niveau du domaine (de sorte qu'elle est optimale pour chaque petit domaine, si le modèle supposé est exact), tandis que le MEP est fondé sur l'EQMP globale (basée sur le plan de sondage). Il en est ainsi parce que nous ne voulons pas que l'estimateur de $ψ$ dépende du domaine. L'une des raisons est que les estimateurs dépendants du domaine sont souvent instables en raison de la petite taille de l'échantillon du domaine, tandis qu'un estimateur obtenu en utilisant tous les domaines, tel que le MEP défini dans le présent article, a tendance à être beaucoup plus stable.

La prise en considération de l'EQMP basée sur le plan de sondage, comme nous le faisons dans le présent article, est due au fait qu'elle est entièrement exempte de modélisation. Notons que, dans Jiang et coll. (2011), où les auteurs ont considéré le modèle de Fay-Herriot, il était impossible d'évaluer l'EQMP basée sur le plan de sondage, parce que les échantillons réels provenant des domaines n'étaient pas disponibles (seuls des résumés des données étaient disponibles au niveau du domaine). Donc, les auteurs ont plutôt considéré l'EQMP basée sur un modèle sous le modèle le plus général, ou le moins contraignant, qui repose simplement sur l'hypothèse que la fonction moyenne est $μ_{i},$ où $μ_{i}$ est complètement inconnue, pour le $i^{e}$ petit domaine. En général, il existe une « règle empirique » pour déterminer le type d'EQMP que l'on doit prendre en considération. Essentiellement, la règle est que l'EQMP doit être exempte de modélisation dans la mesure du possible, afin qu'elle soit objective et (relativement) robuste aux erreurs de spécification du modèle.

À la section 2, nous considérons un exemple simulé dans lequel nous comparons les propriétés prédictives basées sur le plan de sondage de le mpO à celles du MPLSBE. Des comparaisons de ce genre ont été faites dans Jiang et coll. (2011) sous le modèle de Fay-Herriot, mais n'ont jamais été effectuées sous le modèle REE. En outre, les conditions de simulation comprennent la spécification inexacte à la fois de la fonction moyenne et de la fonction variance, ce qui, de nouveau, n'avait pas été considéré auparavant. Les résultats des simulations montrent que le mpO peut donner de meilleurs résultats que le MPLSBE non seulement en ce qui concerne l'EQMP globale basée sur le plan, mais aussi l'EQMP au niveau du domaine (basée sur le plan) pour chacun d'un grand nombre de petits domaines. Il s'agit clairement d'une propriété inédite. Par exemple, Jiang et coll. (2011) ont montré que le mpO donnait de meilleurs résultats que le MPLSBE pour l'EQMP globale, mais pas nécessairement pour chaque petit domaine.

L'estimation des EQMP au niveau des domaines, ici les EQMP basées sur le plan de sondage, représente un important problème d'intérêt pratique. À la section 3, nous proposons un estimateur bootstrap de l'EQMP au niveau du domaine qui a l'avantage d'être simple et toujours positif. Nous décrivons une autre étude par simulation exécutée pour évaluer la performance de l'estimateur de l'EQMP proposé. Une application au Television School and Family Smoking Prevention and Cessation Project (TVSFP) est discutée à la section 4.

Précédent | Suivant

Date de modification :: 2015-11-27

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

1. Introduction