4 Log-vraisemblance composite pondérée : une approche unifiée

J.N.K. Rao, F. Verret et M.A. Hidiroglou

À la présente section, nous proposons une approche unifiée applicable aux modèles multiniveaux linéaires ainsi que linéaires généralisés. Cette approche est fondée sur le concept de la vraisemblance composite qui a acquis de la popularité dans la littérature ne portant pas sur les sondages pour traiter les données en grappes ou les données spatiales (voir p. ex., Lindsay 1988, Lele et Taper 2002 et Varin, Reid et Firth 2011). Une vraisemblance composite marginale par paire s'obtient en multipliant les contributions à la vraisemblance de toutes les paires distinctes dans les grappes. Notons que la vraisemblance composite est obtenue en prétendant que les sous-modèles sont indépendants. Lorsque le modèle de superpopulation est vérifié pour l'échantillon, nous pouvons obtenir les estimateurs des paramètres en maximisant la vraisemblance composite par paire. Ici, nous étendons cette approche aux plans de sondage informatifs en obtenant des équations d'estimation pondérées qui requièrent seulement les poids marginaux $w_{i}$ et $w_{j | i}$ et les poids par paire $w_{j k | i},$ comme à la section 3.

La log vraisemblance composite par paire de recensement est donnée par

$l_{C} (θ) = \sum_{i = 1}^{N} \sum_{j < k = 1}^{M_{i}} \log f (y_{i j}, y_{i k} | θ), (4.1)$

où $f (y_{i j}, y_{i k} | θ)$ est la densité de probabilité conjointe marginale de $y_{i j}$ et $y_{i k} .$ Nous estimons (4.1) par la log-vraisemblance composite par paire pondérée par les poids de sondage

$l_{w C} (θ) = \sum_{i \in s} w_{i} \sum_{j < k \in s (i)} w_{j k | i} \log f (y_{i j}, y_{i k} | θ) (4.2)$

qui dépend seulement des probabilités d'inclusion de niveau 1 et de niveau 2 d'ordre 1 et de probabilités d'inclusion de niveau 1 d'ordre 2. Puis, nous résolvons les équations de score composite pondérées

${\hat{U}}_{w C} (θ) = \partial l_{w C} (θ) / \partial θ = 0, (4.3)$

provenant de (4.2) pour obtenir un estimateur de la vraisemblance composite pondérée, ${\hat{θ}}_{w C},$ de $θ$ . La méthode proposée est applicable aux modèles à deux niveaux linéaires et linéaires généralisés.

Nous notons que ${\hat{U}}_{w C} (θ)$ , donné par (4.3), est un vecteur de fonctions d'estimation d'espérance nulle par rapport au plan et au modèle, c.-à-d. $E_{m} E_{p} {{\hat{U}}_{w C} (θ)} = 0 .$ En utilisant ce résultat, on peut montrer que l'estimateur de la vraisemblance composite pondérée (VCP) ${\hat{θ}}_{w C}$ de $θ$ est convergent sous le modèle quand le nombre d'unités de niveau 2 dans l'échantillon, $n,$ augmente, même si les tailles d'échantillon dans les grappes, $m_{i},$ sont petites. La preuve est exposée en détail dans Yi, Rao et Li (2012). Dans le contexte ne faisant pas appel au sondage, les preuves théoriques et empiriques que l'approche de la vraisemblance composite conduit à des estimateurs efficaces sont limitées (p. ex., Bellio et Varin 2005, Lindsay et coll. 2011). Notre étude en simulation (section 5) indique que l'approche de la vraisemblance composite pondérée donne de bons résultats en ce qui concerne l'efficacité, même si les tailles d'échantillon dans les grappes sont petites.

Dans le cas du modèle à erreurs emboîtées (3.13), en nous inspirant de Lele et Taper (2002), nous pouvons simplifier l'approche de la vraisemblance composite par paire en remplaçant la densité de probabilité bivariée $f (y_{i j}, y_{i k} | θ)$ par les densités de probabilité univariées de $y_{i j}$ et la différence $z_{i j k} = y_{i j} - y_{i k} .$ Pour le modèle de la moyenne (2.2), nous avons $y_{i j} ~ N (μ, σ_{v}^{2} + σ_{e}^{2})$ et $z_{i j k} ~ N (0, 2 σ_{e}^{2})$ . En reparamétrisant $θ = {(μ, σ_{v}^{2}, σ_{e}^{2})}^{T}$ de manière que $ϕ = {(μ, σ^{2}, σ_{e}^{2})}^{T}$ , où $σ^{2} = σ_{v}^{2} + σ_{e}^{2},$ nous voyons que les paramètres des deux densités de probabilité univariées sont distincts et que les log-vraisemblances composites correspondant à $y_{i j}$ et $z_{i j k}$ sont données par

$l_{w C y} (μ, σ^{2}) = \sum_{i \in s} w_{i} \sum_{j \in s (i)} w_{j | i} \log f (y_{i j} | μ, σ^{2})$

$l_{w C z} (σ_{e}^{2}) = \sum_{i \in s} w_{i} \sum_{j < k \in s (i)} w_{j k | i} \log f (z_{i j k} | σ_{e}^{2}) .$

Nous résolvons alors le système d'équations de score composite pondérées résultantes

${\hat{U}}_{w C y 1} (μ, σ^{2}) = \partial l_{w C y} (μ, σ^{2}) / \partial μ = \sum_{i \in s} w_{i} \sum_{j \in s_{i}} w_{j | i} (y_{i j} - μ) / σ^{2} = 0,$

${\hat{U}}_{w C y 2} (μ, σ^{2}) = \partial l_{w C y} (μ, σ^{2}) / \partial σ^{2} = \frac{1}{2} \sum_{i \in s} w_{i} \sum_{j \in s (i)} w_{j | i} [- \frac{1}{σ_{}^{2}} + \frac{{(y_{i j} - μ)}^{2}}{σ^{4}}] = 0$

${\hat{U}}_{w C z} (σ_{e}^{2}) = \partial l_{w C z} (σ_{e}^{2}) / \partial σ_{e}^{2} = \frac{1}{2} \sum_{i} w_{i} \sum_{j < k \in s (i)} w_{j k | i} (- \frac{1}{σ_{e}^{2}} + \frac{z_{i j k}^{2}}{2 σ_{e}^{4}}) = 0$

pour obtenir les estimateurs de la vraisemblance composite pondérée (VCP) ${\hat{μ}}_{w C}, {\hat{σ}}_{v w C}^{2}$ et ${\hat{σ}}_{e w C}^{2}$ . Les estimateurs VCP sont identiques aux estimateurs (3.9) à (3.11) obtenus par l'approche des équations d'estimation pondérées de la section 3.

Nous nous penchons maintenant sur le modèle de régression linéaire à erreurs emboîtées (3.13). Mentionnons pour commencer que $y_{i j} ~ N (x_{i j}^{T} β, σ^{2})$ , où $σ^{2} = σ_{v}^{2} + σ_{e}^{2},$ et $z_{i j k} = y_{i j} - y_{i k} ~ N {{(x_{i j} - x_{i k})}^{T} β, 2 σ_{e}^{2}} .$ Il s'ensuit que les équations de score composite pondérées sont données par

$\begin{matrix} {\hat{U}}_{w C y 1} (β, σ^{2}) = \partial l_{w C y} (β, σ^{2}) / \partial β \\ = \sum_{i \in s} w_{i} \sum_{j \in s (i)} w_{j | i} x_{i j} (y_{i j} - x_{i j}^{T} β) = 0 \end{matrix}$

$\begin{matrix} {\hat{U}}_{w C y 2} (β, σ^{2}) = \partial l_{w C y} (β, σ^{2}) / \partial σ^{2} \\ = - \frac{1}{2} \sum_{i \in s} w_{i} \sum_{j \in s (i)} w_{j | i} [\frac{1}{σ^{2}} - \frac{{(y_{i j} - x_{i j}^{T} β)}^{2}}{σ^{4}}] = 0 \end{matrix}$

$\begin{matrix} {\hat{U}}_{w C z} (σ_{e}^{2}) = \partial l_{w C z} (σ_{e}^{2}) / \partial σ_{e}^{2} \\ = - \frac{1}{2} \sum_{i \in s} w_{i} \sum_{j < k \in s (i)} w_{j k | i} {\frac{1}{σ_{e}^{2}} - \frac{{[z_{i j k} - {(x_{i j} - x_{i k})}^{T} β]}^{2}}{2 σ_{e}^{4}}} = 0. \end{matrix}$

Les estimateurs VCP résultants de $β$ , $σ_{v}^{2}$ et $σ_{e}^{2}$ sont donnés par

${\hat{β}}_{w C} = {(\sum_{i \in s} \sum_{j \in s (i)} w_{i j} x_{i j} x_{i j}^{T})}^{- 1} (\sum_{i \in s} \sum_{j \in s (i)} w_{i j} x_{i j} y_{i j}),$

${\hat{σ}}_{w C}^{2} = \sum_{i \in s} \sum_{j \in s (i)} w_{i j} {(y_{i j} - x_{i j}^{T} {\hat{β}}_{w C})}^{2} / \sum_{i \in s} \sum_{j \in s (i)} w_{i j},$

${\hat{σ}}_{e w C}^{2} = \sum_{i \in s} w_{i} \sum_{j < k \in s (i)} w_{j k | i} {[z_{i j k} - {(x_{i j} - x_{i k})}^{T} {\hat{β}}_{w C}]}^{2} / (2 \sum_{i \in s} w_{i} \sum_{j < k \in s (i)} w_{j k | i}) .$

L'estimateur de $σ_{v}^{2}$ est donné par ${\hat{σ}}_{v w C}^{2} = {\hat{σ}}_{w C}^{2} - {\hat{σ}}_{e w C}^{2} .$ De nouveau, les estimateurs VCP ${\hat{β}}_{W C}$ , ${\hat{σ}}_{v W C}^{2}$ et ${\hat{σ}}_{e W C}^{2}$ sont identiques aux estimateurs (3.17) à (3.19) obtenus par l'approche des équations d'estimation pondérées de la section 3.

L'approche de la vraisemblance composite susmentionnée, fondée sur $y_{i j}$ et $z_{i j k} = y_{i j} - y_{i k}$ , n'est pas applicable au modèle à deux niveaux linéaire donné par (2.4), parce que le vecteur de paramètres, $θ$ , n'est pas identifiable sous la vraisemblance composite obtenue à partir des $y_{i j}$ et $z_{i j k}$ . Nous devons faire appel à la méthode par paire pour traiter le modèle (2.4).

Marginalement, ${(y_{i j}, y_{i k})}^{T}$ suit une loi normale bivariée de moyennes $x_{i j}^{T} β$ et $x_{i k}^{T} β$ et de matrice de covariance $2 \times 2$

$Σ_{i (j k)} = [\begin{matrix} σ_{e}^{2} + x_{i j}^{T} Σ_{v} x_{i j} & x_{i j}^{T} Σ_{v} x_{i k} \\ x_{i k}^{T} Σ_{v} x_{i j} & σ_{e}^{2} + x_{i k}^{T} Σ_{v} x_{i k} \end{matrix}] .$

Maintenant, il découle de (4.3) que les équations de score composite pondérées sont données par

$β : {\hat{U}}_{w C β} = \sum_{i \in s} w_{i} \sum_{j < k \in s (i)} w_{j k | i} X_{i (j k)}^{T} Σ_{i (j k)}^{- 1} (y_{i (j k)} - X_{i (j k)}^{T} β) = 0 (4.4)$

$\begin{array}{l} τ : {\hat{U}}_{w C l} = \frac{1}{2} \sum_{i \in s} w_{i} \sum_{j < k \in s (i)} w_{j k | i} [{(y_{i (j k)} - X_{i (j k)}^{T} β)}^{T} Σ_{i (j k)}^{- 1} \frac{\partial Σ_{i (j k)}}{\partial τ_{l}} Σ_{i (j k)}^{- 1} (y_{i (j k)} - X_{i (j k)}^{T} β) (4.5) \\ - tr (Σ_{i (j k)}^{- 1} \frac{\partial Σ_{i (j k)}}{\partial τ_{l}})] = 0, l = 1, ..., p (p + 1) / 2 + 1 = P \end{array}$

où $X_{i (j k)}$ est la matrice de dimensions $2 \times p$ contenant les lignes $x_{i j}^{T}$ et $x_{i k}^{T}$ , $y_{i (j k)} = {(y_{i j}, y_{i k})}^{T}$ , et $τ$ est le vecteur de dimension P contenant les éléments $τ_{1} = σ_{e}^{2}$ et les $p (p + 1) / 2$ éléments distincts de $Σ_{v}$ désignés par $τ_{2}, ..., τ_{P}$ . Nous pouvons résoudre les équations de score composite pondérées (4.4) et (4.5) itérativement en utilisant la méthode de Newton-Raphson ou une autre méthode itérative pour obtenir les estimateurs VCP ${\hat{β}}_{w C}$ et ${\hat{τ}}_{w C}$ .

Dans le cas particulier du modèle de régression linéaire à erreurs emboîtées (3.13), les équations de score de recensement, fondées sur la log-vraisemblance de recensement complète $l (θ)$ donnée par (2.5), peuvent s'écrire sous une forme explicite. Les équations de score pondérées d'échantillon correspondantes ne dépendent que des poids de niveau 1 $w_{j | i}$ et $w_{j k | i}$ et des poids de niveau 2 $w_{i},$ comme les équations de score composite pondérées (voir l'annexe). Les estimateurs résultants sont convergents sous le modèle pour $θ$ , contrairement aux estimateurs fondés sur la pseudo log-vraisemblance pondérée $l_{w} (θ)$ donnés par (2.7) et (2.8). Cependant, pour des modèles plus complexes, comme les modèles à deux niveaux avec pentes aléatoires, les équations de score pondérées d'échantillon dépendront des probabilités d'inclusion de niveau 1 d'ordres 3 et 4, contrairement aux équations de score composite pondérées (4.3) qui ne dépendent que des probabilités d'inclusion de niveau 1 d'ordres 1 et 2, même pour les modèles multiniveaux complexes. Par conséquent, nous n'avons pas inclus l'approche des équations de score pondérées fondée sur la log-vraisemblance de recensement complète dans l'étude en simulation.

Précédent | Suivant

Date de modification :: 2017-09-20

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

4 Log-vraisemblance composite pondérée : une approche unifiée