5. Quelques simulations
Phillip S. Kott et Dan Liao
Précédent | Suivant
Comme dans Kott et Liao (2012), nous avons
créé une population synthétique,
d’hôpitaux à partir du
fichier de données à grande diffusion DAWN de 2008. Après avoir créé
nous avons tiré indépendamment
3 600 échantillons aléatoires simples stratifiés de taille 400 de
en utilisant les définitions des
strates du fichier de données à grande diffusion. Ces définitions incorporent l’information
sur l’emplacement et la propriété de l’hôpital (publique ou privée) qui n’est
pas fournie directement dans le fichier.
Nous avons fixé les tailles des échantillons
de strate de façon qu’elles soient approximativement proportionnelles à une mesure
de taille
mais jamais inférieures à quatre. Pour
nous avons utilisé le nombre annuel de visites
au service d’urgence associées à la consommation de drogues, qui était toujours
positif. Dans le fichier DAWN, une variable de taille est en fait associée à
chaque hôpital figurant dans la base de sondage, à savoir le nombre de visites
au service d’urgence durant une année antérieure selon l’American Hospital Association. Malheureusement, cette variable
n’était pas incluse dans le fichier de données à grande diffusion. Dans nos simulations,
les poids de sondage variaient entre 4,375 et 48, ce qui nous a permis de traiter
les facteurs de correction pour population finie comme étant ignorables dans l’estimation
de la variance.
Comme dans notre article original, nous
avons généré un échantillon de répondants
pour chaque échantillon simulé
selon un tirage de Bernoulli à partir de la fonction logistique :
Nous avons également créé des échantillons de
répondants de rechange en utilisant
Les modèles de réponse ont tous deux
produit des taux de réponse globaux non pondérés d’environ 54 %, ce qui
est similaire à la situation réelle du fichier DAWN, où la réponse prend aussi la forme d’une fonction légèrement
croissante de la variable de taille. Notons que
est borné même si ni l’une ni
l’autre probabilité ne peut être exprimée par l’équation (2.4) avec une borne
supérieure
finie.
Comme dans l’étude précédente, nous
nous sommes concentrés sur l’estimation des totaux de population pour trois variables
étudiées. Les nombres annuels de visites au service d’urgence liées à la
consommation de drogues avec réaction pharmaceutique indésirable et de celles
résultant en un décès ont été extraits du fichier de données à grande diffusion.
Puisque ces variables étaient approximativement linéaires en notre mesure de
taille, la troisième variable «étudiée » a été construite artificiellement.
Il s’agissait de la mesure de taille (nombre de visites annuelles au service d’urgence
liées à la consommation de drogues) élevée à la puissance 1,3.
Nous avons étudié huit estimateurs et
estimations de leur variance. Les résultats sont résumés au tableau 5.1. Les
deux premiers comportaient le calage sur l’échantillon original seulement (équation
(2.5) avec
en supposant que la réponse était
de forme logistique en le logarithme de la mesure de taille. Nous avons employé
l’équation (2.3) avec
Le premier estimateur utilisait
comme vecteur de calage,
tandis que le deuxième utilisait
qui était davantage en
harmonie avec un modèle de prédiction raisonnable, du moins pour les réactions indésirables
et les décès.
Nos troisième et quatrième estimateurs comportaient
le calage sur l’échantillon et sur la population en une seule étape (équation
(2.5) avec
puis
en utilisant
Ils étaient conçus pour être
quasiment sans biais si le modèle de réponse logistique en
ou le modèle de prédiction linéaire en
étaient vérifiés.
Il n’est pas surprenant de constater
que l’erreur quadratique moyenne relative (empirique) du quatrième estimateur est
toujours plus faible que celle du troisième. La raison en est assez évidente si
l’on examine l’équation (3.1) et que l’on considère la conséquence du fait que
est égal à 0 (calage sur la population)
plutôt qu’à 1 (calage sur l’échantillon).
Les cinquième à huitième estimateurs ont
été calés en deux étapes. Pour les cinquième et septième estimateurs, on a
employé la pondération par calage utilisée pour le premier estimateur à la
première étape, tandis que pour les sixième et huitième, on a employé la
pondération par calage du deuxième estimateur. Pour les cinquième et sixième
estimateurs, on a utilisé
à la deuxième étape, tandis
que les septième et huitième étaient quasi pseudo-optimaux (Kott 2011) en
utilisant
et
à la deuxième étape. Pour les
quatre estimateurs, on a employé les fonctions d’ajustement des poids
individuels suivantes :
Comme l’a montré Kott (2011), ces
sont
asymptotiquement identiques à la fonction d’ajustement des poids,
quand
mais empêchent
tout poids
de devenir
inférieur à l’unité. Chacune est une version de l’équation (4.1) avec
et
Comme le taux de non-réponse n’était
pas élevé, nous n’avons pas eu de problème à calculer les troisième et quatrième
estimateurs quel qu’était l’échantillon de répondants simulés utilisé. L’erreur
quadratique moyenne relative du quatrième estimateur était systématiquement
légèrement plus grande que celle des septième et huitième estimateurs, dans
lesquels était incorporé un calage quasi pseudo-optimal à la deuxième étape. Curieusement,
cela n’était pas le cas pour la comparaison du quatrième estimateur aux
cinquième et sixième estimateurs qui, bien que comprenant les deux étapes, n’intégraient
pas le calage quasi pseudo-optimal.
Il convient de souligner que, même si
le deuxième estimateur possédait systématiquement une plus petite erreur
quadratique moyenne relative que le premier, du fait qu’il était davantage en
harmonie avec un modèle de prédiction raisonnable (même pour
la variable étudiée paraissait
plus près d’être linéaire en
qu’en
les autres paires analogues (cinquième c. sixième
et septième c. huitième) ne présentaient aucun schéma évident de supériorité. Cela
tient au fait que ce sont les résidus de la deuxième étape qui sont effectivement
modélisés dans l’équation (4.4) et non les valeurs de
La production de la non-réponse au
moyen de l’équation (5.2) plutôt que (5.1) ne semble pas avoir beaucoup d’effet
sur les résultats, sauf en ce qui concerne les biais relatifs du premier estimateur.
Tant pour les réactions indésirables que pour la
le biais relatif de cet
estimateur est supérieur à 40 % de l’erreur quadratique moyenne relative. Il
en est vraisemblablement ainsi parce que les deux modèles qui pouvaient être
utilisés pour justifier cet estimateur (la réponse est logistique en le logarithme
de la mesure de taille et la variable étudiée est linéaire en le logarithme de la
mesure de taille) n’ont pas tenu. Il n’est donc pas étonnant, puisque le biais
relatif représente une telle part de l’erreur quadratique moyenne relative dans
ces deux situations, que
sous-estime fortement l’erreur
quadratique moyenne. Nulle part ailleurs le biais relatif de
n’est supérieur à 15 %.
Il semble que même notre variable
artificielle,
s’approchait suffisamment de
la linéarité en la mesure de taille pour que le biais ne soit jamais un
problème pour tout autre estimateur que le premier. Le premier estimateur lui-même
avait un biais relatif négligeable quand la réponse était un modèle logistique
du logarithme de la mesure de taille, comme on le suppose.
Précédent | Suivant