Techniques d’enquête

Date de diffusion : 15 décembre 2020

La revue Techniques d’enquête volume 46, numéro 2 (décembre 2020) comprend cinq articles.

Articles réguliers

Techniques d’enquête

par Cristian Oliva-Aviles, Mary C. Meyer et Jean D. Opsomer

Dans de nombreuses enquêtes à grande échelle, des estimations sont produites pour un grand nombre de petits domaines définis par des classifications croisées de variables démographiques, géographiques et autres. Bien que la taille globale de l’échantillon de ces enquêtes puisse être très grande, la taille des échantillons des domaines est parfois trop petite pour permettre une estimation fiable. Nous proposons une méthode d’estimation améliorée qui s’applique quand il est possible de formuler des relations « naturelles » ou qualitatives (comme des ordonnancements ou des contraintes d’inégalité) pour les moyennes des domaines au niveau de la population. Nous restons dans un cadre inférentiel fondé sur le plan, mais nous imposons des contraintes représentant ces relations sur les estimations échantillonnales. Nous démontrons que l’estimateur de domaine contraint qui en résulte est convergent par rapport au plan et a une distribution asymptotique normale tant que les contraintes sont asymptotiquement satisfaites au niveau de la population. L’estimateur et l’estimateur de la variance connexe sont facilement mis en œuvre en pratique. L’applicabilité de la méthode est illustrée par les données de la National Survey of College Graduates des États-Unis (NSCG, Enquête nationale sur les diplômés des collèges) de 2015.

Article complet Version PDF

Ajustement de pondération hiérarchique bayésienne et inférence d’enquête

par Yajuan Si, Rob Trangucci, Jonah Sol Gabry et Andrew Gelman

Nous combinons pondération et prédiction bayésienne dans une approche unifiée pour l’inférence d’enquête. Les principes généraux de l’analyse bayésienne impliquent que les modèles pour les résultats d’enquête devraient être conditionnés par toutes les variables influant sur les probabilités d’inclusion. Nous intégrons toutes les variables servant à l’ajustement de pondération dans un cadre de régression multiniveau et de poststratification pour obtenir un sous-produit générant des poids basés sur un modèle après lissage. Nous améliorons l’estimation sur petits domaines en traitant les divers problèmes complexes que posent les applications dans la vie réelle pour obtenir une inférence robuste à des niveaux plus fins pour les sous-domaines d’intérêt. Nous examinons les interactions profondes et introduisons des distributions a priori structurées pour le lissage et la stabilisation des estimations. Le calcul se fait par Stan et avec le paquet rstanarm du code source libre R, disponible pour utilisation publique. Nous évaluons les propriétés selon le plan de la procédure bayésienne. Nous recourons à des études en simulation pour illustrer comment la prédiction basée sur un modèle et l’inférence pondérée peuvent donner de meilleurs résultats que la pondération classique. Nous appliquons la méthode à la New York Longitudinal Study of Wellbeing (LSW). La nouvelle approche produit des poids lissés et rend plus efficace une inférence robuste de population finie, plus particulièrement pour des sous-ensembles de la population.

Article complet Version PDF

La vraisemblance pénalisée de Firth pour les régressions à risques proportionnels en cas d’enquêtes complexes

par Pushpal K. Mukhopadhyay

Le présent article propose une méthode de mise à l’échelle des poids pour la vraisemblance pénalisée de Firth pour des modèles de régression à risques proportionnels. La méthode calcule une relation entre la vraisemblance pénalisée utilisant des poids mis à l’échelle et la vraisemblance pénalisée utilisant des poids non mis à l’échelle, et elle montre que la vraisemblance pénalisée utilisant des poids mis à l’échelle possède certaines propriétés souhaitables. Une étude par simulations indique que la vraisemblance pénalisée utilisant des poids mis à l’échelle produit des biais plus petits dans les estimations ponctuelles et les erreurs-types que les biais produits par la vraisemblance pénalisée utilisant des poids non mis à l’échelle. La vraisemblance pénalisée pondérée est appliquée à l’estimation des taux de risque pour les crises cardiaques au moyen d’un ensemble de données à grande diffusion provenant de la National Health and Epidemiology Follow up Study (NHEFS, Étude de suivi épidémiologique et de santé nationale). L’annexe contient les instructions SASMD servant à estimer les taux de risque à l’aide de données d’enquêtes complexes.

Article complet Version PDF

Échantillonnage d’ensembles ordonnés avec probabilité proportionnelle à la taille dans des populations stratifiées

par Omer Ozturk

Le présent article construit un échantillon d’ensembles ordonnés avec probabilité proportionnelle à la taille (PPT) à partir d’une population stratifiée. Un échantillon d’ensembles ordonnés PPT partitionne les unités d’un échantillon PPT en groupes d’observations semblables. La construction de groupes semblables repose sur des positions relatives (rangs) d’unités dans de petits ensembles de comparaison. Ainsi, les rangs induisent plus de structure (stratification) dans l’échantillon en plus de la structure de données créée par des probabilités de sélection inégales dans un échantillon PPT. La structure de données ajoutée rend l’échantillon d’ensembles ordonnés PPT plus informatif qu’un échantillon PPT. On construit l’échantillon d’ensembles ordonnés PPT stratifié en sélectionnant un échantillon d’ensembles ordonnés PPT à partir de chaque strate de la population. L’article construit des estimateurs sans biais pour la moyenne de la population, le total de la population et leurs variances. On applique le nouveau plan d’échantillonnage à des données sur la production de pommes pour estimer la production totale de pommes en Turquie.

Article complet Version PDF

Classification semi-automatisée des réponses à des questions ouvertes à étiquettes multiples

par Hyukjun Gweon, Matthias Schonlau et Marika Wenemark

Dans les enquêtes, les réponses textuelles à des questions ouvertes ont de l’importance, puisqu’elles permettent aux répondants de livrer plus de renseignements sans contrainte. Dans une classification automatique des réponses à des questions ouvertes en apprentissage supervisé, la précision souvent n’est pas assez grande. Comme autre possibilité, une stratégie de classification semi-automatisée peut être envisagée : les réponses sont classifiées automatiquement dans le groupe facile à classer et classifiées manuellement dans le reste. Nous présentons ici une méthode de classification semi-automatisée des réponses à des questions ouvertes à étiquettes multiples pour les cas où les réponses textuelles peuvent appartenir simultanément à plusieurs classes. La méthode que nous proposons se trouve à combiner de multiples chaînes de classification probabiliste en évitant des coûts de calcul prohibitifs. L’évaluation du rendement sur trois ensembles de données démontre l’efficacité de cette méthode.

Article complet Version PDF


Date de modification :