4 Applications

Peter M. Aronow et Cyrus Samii

La proposition 1 montre que le biais de l'estimateur de variance de Horvitz-Thompson sous non-mesurabilité est

$A = \sum_{k \in U} \sum_{l \in {U \ k : π_{k l} = 0}} y_{k} y_{l} .$

Cette expression, conjuguée au fait que $A^{*} \geq A$ indique clairement que le degré de biais dans $\hat{Var} (\hat{t})$ et ${\hat{Var}}_{C} (\hat{t})$ dépend beaucoup du nombre de paires pour lesquelles les probabilités d'inclusion sont nulles. Pour les plans pour lesquels ce nombre est faible, $\hat{Var} (\hat{t})$ peut fournir un estimateur raisonnable et prudent quand $y_{k}$ est de même signe pour tout $k,$ et ${\hat{Var}}_{C} (\hat{t})$ peut fournir un estimateur raisonnable et prudent quand $y_{k}$ peut prendre des signes différents pour certaines valeurs de $k .$ Un exemple observé fréquemment est celui de l'échantillonnage stratifié où, pour une proportion relativement faible de cas, nous avons de petites strates desquelles nous ne tirons qu'une seule unité.

Pour les plans qui aboutissent à de nombreuses paires dont les probabilités d'inclusion sont nulles, $\hat{Var} (\hat{t})$ et ${\hat{Var}}_{C} (\hat{t})$ pourraient être exagérément prudents et d'autres estimateurs pourraient être préférés sur la base de critères tels que l'erreur quadratique moyenne. Un exemple frappant est celui de l'échantillonnage systématique. En effet, Särndal et coll. (1992, page 76) suggèrent que, sous échantillonnage systématique, l'estimateur de variance de Horvitz-Thompson, $\hat{Var} (\hat{t}),$ peut donner un « résultat absurde ». L'expression pour $A$ indique clairement pourquoi il en serait ainsi. Wolter (2007, chapitre 8) montre que des estimateurs biaisés plus simples, tels que l'estimateur de variance avec remise (Hansen-Hurwitz), peuvent être fiables, si ce n'est légèrement prudents, pour une grande gamme de scénarios de données sous échantillonnage systématique avec probabilités égales et avec probabilités proportionnelles à la taille (PPT). Néanmoins, l'estimateur avec remise ne tient pas compte adéquatement de la variance d'échantillonnage quand la variance du résultat à l'intérieur des grappes de l'échantillon systématique est plus faible que la variance entre grappes. Dans de tels cas, $\hat{Var} (\hat{t})$ bornerait cette variance en espérance quand les résultats sont tous de même signe, et ${\hat{Var}}_{C} (\hat{t})$ bornerait systématiquement cette variance en espérance. Naturellement, il se pourrait encore que le biais soit trop grand pour que l'estimateur soit de beaucoup d'utilité, et nous ne suggérons donc pas que $\hat{Var} (\hat{t})$ et ${\hat{Var}}_{C} (\hat{t})$ fourniraient une solution complète au problème d'estimation de la variance pour l'échantillonnage systématique sous forte corrélation intra-grappe.

Les résultats des études en simulation peuvent être consultés dans un supplément (à l'adresse https://files.nyu.edu/cds2083/public/docs/smj_suppl.pdf). Ils illustrent les propriétés de $\hat{Var} (\hat{t})$ et ${\hat{Var}}_{C} (\hat{t})$ comparativement à d'autres options utilisées fréquemment dans des scénarios appliqués. Les simulations illustrent des situations dans lesquelles ces estimateurs sont préférables aux autres options. Pour l'échantillonnage d'une unité par strate, nous montrons que ces estimateurs sont moins biaisés que l'estimateur sur « strate fusionnée » dans une gamme de scénarios. Pour l'échantillonnage systématique PPT, ces estimateurs donnent de bons résultats quand la population présente une périodicité importante, situation dans laquelle l'estimateur avec remise fréquemment utilisé peut présenter un biais négatif important.

Précédent | Suivant

Date de modification :: 2017-09-20

Sélection de la langue

Recherche et menus

Recherche

Publications

Techniques d’enquête

Recherche par

4 Applications