Recherche par

5. Quelques simulations

Phillip S. Kott et Dan Liao

Comme dans Kott et Liao (2012), nous avons créé une population synthétique, $U,$ d’hôpitaux à partir du fichier de données à grande diffusion DAWN de 2008. Après avoir créé $U,$ nous avons tiré indépendamment 3 600 échantillons aléatoires simples stratifiés de taille 400 de $U$ en utilisant les définitions des strates du fichier de données à grande diffusion. Ces définitions incorporent l’information sur l’emplacement et la propriété de l’hôpital (publique ou privée) qui n’est pas fournie directement dans le fichier.

Nous avons fixé les tailles des échantillons de strate de façon qu’elles soient approximativement proportionnelles à une mesure de taille $q_{k},$ mais jamais inférieures à quatre. Pour $q_{k},$ nous avons utilisé le nombre annuel de visites au service d’urgence associées à la consommation de drogues, qui était toujours positif. Dans le fichier DAWN, une variable de taille est en fait associée à chaque hôpital figurant dans la base de sondage, à savoir le nombre de visites au service d’urgence durant une année antérieure selon l’American Hospital Association. Malheureusement, cette variable n’était pas incluse dans le fichier de données à grande diffusion. Dans nos simulations, les poids de sondage variaient entre 4,375 et 48, ce qui nous a permis de traiter les facteurs de correction pour population finie comme étant ignorables dans l’estimation de la variance.

Comme dans notre article original, nous avons généré un échantillon de répondants $R$ pour chaque échantillon simulé selon un tirage de Bernoulli à partir de la fonction logistique :

$p_{k} = {(1 + \exp (3,735 - 0,4 \log (q_{k})))}^{- 1}, (5.1)$

Nous avons également créé des échantillons de répondants de rechange en utilisant

$p_{k} = {(1 + \exp (0,597 - 0,005 q_{k}^{1 / 2}))}^{- 1} . (5.2)$

Les modèles de réponse ont tous deux produit des taux de réponse globaux non pondérés d’environ 54 %, ce qui est similaire à la situation réelle du fichier DAWN, où la réponse prend aussi la forme d’une fonction légèrement croissante de la variable de taille. Notons que $α_{k} = 1 / p_{k}$ est borné même si ni l’une ni l’autre probabilité ne peut être exprimée par l’équation (2.4) avec une borne supérieure $u$ finie.

Comme dans l’étude précédente, nous nous sommes concentrés sur l’estimation des totaux de population pour trois variables étudiées. Les nombres annuels de visites au service d’urgence liées à la consommation de drogues avec réaction pharmaceutique indésirable et de celles résultant en un décès ont été extraits du fichier de données à grande diffusion. Puisque ces variables étaient approximativement linéaires en notre mesure de taille, la troisième variable «étudiée » a été construite artificiellement. Il s’agissait de la mesure de taille (nombre de visites annuelles au service d’urgence liées à la consommation de drogues) élevée à la puissance 1,3.

Nous avons étudié huit estimateurs et estimations de leur variance. Les résultats sont résumés au tableau 5.1. Les deux premiers comportaient le calage sur l’échantillon original seulement (équation (2.5) avec $θ = 1),$ en supposant que la réponse était de forme logistique en le logarithme de la mesure de taille. Nous avons employé l’équation (2.3) avec $x_{k} = {(1 \log (q_{k}))}^{T} .$ Le premier estimateur utilisait $z_{k} = {(1 \log (q_{k}))}^{T}$ comme vecteur de calage, tandis que le deuxième utilisait $z_{k} = {(1 q_{k})}^{T},$ qui était davantage en harmonie avec un modèle de prédiction raisonnable, du moins pour les réactions indésirables et les décès.

Nos troisième et quatrième estimateurs comportaient le calage sur l’échantillon et sur la population en une seule étape (équation (2.5) avec $θ = 1,$ puis $θ = 0)$ en utilisant $x_{k} = z_{k} = {(1 l o g (q_{k}) q_{k})}^{T} .$ Ils étaient conçus pour être quasiment sans biais si le modèle de réponse logistique en ${(1 log (q_{k}))}^{T}$ ou le modèle de prédiction linéaire en ${(1 q_{k})}^{T}$ étaient vérifiés.

Tableau 5.1 Sommaire de l’exercice de simulation (tous les résultats sont exprimés en pourcentage %)

Il n’est pas surprenant de constater que l’erreur quadratique moyenne relative (empirique) du quatrième estimateur est toujours plus faible que celle du troisième. La raison en est assez évidente si l’on examine l’équation (3.1) et que l’on considère la conséquence du fait que $θ$ est égal à 0 (calage sur la population) plutôt qu’à 1 (calage sur l’échantillon).

Les cinquième à huitième estimateurs ont été calés en deux étapes. Pour les cinquième et septième estimateurs, on a employé la pondération par calage utilisée pour le premier estimateur à la première étape, tandis que pour les sixième et huitième, on a employé la pondération par calage du deuxième estimateur. Pour les cinquième et sixième estimateurs, on a utilisé $z_{2 k} = x_{2 k} = {(1 \log (q_{k}) q_{k})}^{T}$ à la deuxième étape, tandis que les septième et huitième étaient quasi pseudo-optimaux (Kott 2011) en utilisant $z_{2 k} = {(1 \log (q_{k}) q_{k})}^{T}$ et $x_{2 k} = (d_{k} α_{k} - 1) z_{2 k}$ à la deuxième étape. Pour les quatre estimateurs, on a employé les fonctions d’ajustement des poids individuels suivantes :

$h_{k} (g_{2}^{T} x_{2 k}) = \frac{1}{d_{k} α_{k}} + (1 - \frac{1}{d_{k} α_{k}}) \exp [\frac{g_{2}^{T} x_{2 k}}{1 - \frac{1}{d_{k} α_{k}}}] .$

Comme l’a montré Kott (2011), ces $h_{k} (g_{2}^{T} x_{2 k})$ sont asymptotiquement identiques à la fonction d’ajustement des poids, $1 + g_{2}^{T} x_{2 k},$ quand $g_{2}^{T} x_{2 k} = O_{P} (1 / \sqrt{n}),$ mais empêchent tout poids $w_{k}$ de devenir inférieur à l’unité. Chacune est une version de l’équation (4.1) avec $ℓ_{k} = 1 / (d_{k} α_{k}), c = 1,$ et $u = \infty .$

Comme le taux de non-réponse n’était pas élevé, nous n’avons pas eu de problème à calculer les troisième et quatrième estimateurs quel qu’était l’échantillon de répondants simulés utilisé. L’erreur quadratique moyenne relative du quatrième estimateur était systématiquement légèrement plus grande que celle des septième et huitième estimateurs, dans lesquels était incorporé un calage quasi pseudo-optimal à la deuxième étape. Curieusement, cela n’était pas le cas pour la comparaison du quatrième estimateur aux cinquième et sixième estimateurs qui, bien que comprenant les deux étapes, n’intégraient pas le calage quasi pseudo-optimal.

Il convient de souligner que, même si le deuxième estimateur possédait systématiquement une plus petite erreur quadratique moyenne relative que le premier, du fait qu’il était davantage en harmonie avec un modèle de prédiction raisonnable (même pour $q_{k}^{1,3},$ la variable étudiée paraissait plus près d’être linéaire en $q_{k}$ qu’en $\log (q_{k})),$ les autres paires analogues (cinquième c. sixième et septième c. huitième) ne présentaient aucun schéma évident de supériorité. Cela tient au fait que ce sont les résidus de la deuxième étape qui sont effectivement modélisés dans l’équation (4.4) et non les valeurs de $y .$

La production de la non-réponse au moyen de l’équation (5.2) plutôt que (5.1) ne semble pas avoir beaucoup d’effet sur les résultats, sauf en ce qui concerne les biais relatifs du premier estimateur. Tant pour les réactions indésirables que pour la ${(taille)}^{1, 3},$ le biais relatif de cet estimateur est supérieur à 40 % de l’erreur quadratique moyenne relative. Il en est vraisemblablement ainsi parce que les deux modèles qui pouvaient être utilisés pour justifier cet estimateur (la réponse est logistique en le logarithme de la mesure de taille et la variable étudiée est linéaire en le logarithme de la mesure de taille) n’ont pas tenu. Il n’est donc pas étonnant, puisque le biais relatif représente une telle part de l’erreur quadratique moyenne relative dans ces deux situations, que $v (t_{k})$ sous-estime fortement l’erreur quadratique moyenne. Nulle part ailleurs le biais relatif de $v (t_{k})$ n’est supérieur à 15 %.

Il semble que même notre variable artificielle, ${(taille)}^{1, 3},$ s’approchait suffisamment de la linéarité en la mesure de taille pour que le biais ne soit jamais un problème pour tout autre estimateur que le premier. Le premier estimateur lui-même avait un biais relatif négligeable quand la réponse était un modèle logistique du logarithme de la mesure de taille, comme on le suppose.

Précédent | Suivant

Date de modification :: 2015-11-27

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

5. Quelques simulations