Répartition optimale de l'échantillon pour une régression convergente sous le plan dans une enquête sur les services aux cancéreux quand les variables du plan d'échantillonnage sont connues pour des agrégats - ARCHIVÉ

Articles et rapports : 12-001-X200800110615

Description :

Nous considérons les taux d'échantillonnage optimaux dans des plans d'échantillonnage par élément, quand l'analyse prévue est la régression linéaire pondérée par les poids de sondage et que les paramètres à estimer sont des combinaisons linéaires des coefficients de régression provenant d'un ou de plusieurs modèles. Nous commençons par élaborer des méthodes en supposant que des renseignements exacts sur les variables du plan existent dans la base de sondage, puis nous les généralisons à des situations où l'information pour certaines variables du plan n'est disponible que sous forme d'agrégat pour des groupes de sujets éventuels ou provient de données inexactes ou périmées. Nous envisageons également un plan d'échantillonnage pour l'estimation de combinaisons de coefficients provenant de plus d'un modèle. Une généralisation supplémentaire permet d'utiliser des combinaisons flexibles de coefficients choisies pour améliorer l'estimation d'un effet tout en en contrôlant un autre. Les applications éventuelles comprennent l'estimation des moyennes pour plusieurs ensembles de domaines chevauchants, ou l'amélioration des estimations pour des sous populations telles que les races minoritaires par échantillonnage non proportionnel des régions géographiques. Dans le contexte de la conception d'un sondage sur les soins reçus par les cancéreux (l'étude CanCORS) qui a motivé nos travaux, l'information éventuelle sur les variables du plan d'échantillonnage comprenait des données de recensement au niveau de l'îlot sur la race/ethnicité et la pauvreté, ainsi que des données au niveau individuel. Pour un emplacement de l'étude, un plan d'échantillonnage avec probabilités inégales en utilisant les adresses résidentielles des sujets et des données de recensement réduirait la variance de l'estimateur d'un effet du revenu de 25 %, ou de 38 % si la race des sujets avait été connue également. Par pondération flexible des contrastes du revenu selon la race, la variance de l'estimateur serait réduite de 26 % en utilisant les adresses résidentielles seulement et de 52 % en utilisant les adresses et les races. Nos méthodes seraient utiles dans les études où l'on considère un suréchantillonnage géographique selon la race ethnicité ou les caractéristiques socioéconomiques, ou dans toute étude où les caractéristiques pour lesquelles des données sont disponibles dans les bases de sondage sont mesurées avec une erreur.

Numéro d'exemplaire : 2008001
Auteur(s) : Adams, John; Zaslavsky, Alan M.; Zheng, Hui

Produit principal : Techniques d'enquête

FormatDate de sortieInformations supplémentaires
PDF26 juin 2008