Techniques d’enquête

Date de diffusion : Le 15 décembre 2022

La revue Techniques d’enquête volume 48, numéro 2 (décembre 2022) comprend les douze articles suivants :

Article sollicité Waksberg

Bayes, étayé par des idées fondées sur le plan, est le meilleur paradigme global pour l’inférence en enquête par échantillonnage

par Roderick J. Little

Résumé

Des arguments conceptuels et des exemples sont présentés qui suggèrent que l’approche d’inférence bayésienne pour les enquêtes permet de répondre aux défis nombreux et variés de l’analyse d’une enquête. Les modèles bayésiens qui intègrent des caractéristiques du plan de sondage complexe peuvent donner lieu à des inférences pertinentes pour l’ensemble de données observé, tout en ayant de bonnes propriétés d’échantillonnage répété. Les exemples portent essentiellement sur le rôle des variables auxiliaires et des poids d’échantillonnage, et les méthodes utilisées pour gérer la non-réponse. Le présent article propose 10 raisons principales de favoriser l’approche d’inférence bayésienne pour les enquêtes.

Article complet Version PDF

Article spécial avec commentaires

Inférence statistique avec des échantillons d’enquête non probabiliste

par Changbao Wu

Résumé

Nous offrons un examen critique et quelques discussions approfondies sur des questions théoriques et pratiques à l’aide d’une analyse des échantillons non probabilistes. Nous tentons de présenter des cadres inférentiels rigoureux et des procédures statistiques valides dans le cadre d’hypothèses couramment utilisées et d’aborder les questions relatives à la justification et à la vérification d’hypothèses sur des applications pratiques. Certains progrès méthodologiques actuels sont présentés et nous mentionnons des problèmes qui nécessitent un examen plus approfondi. Alors que l’article porte sur des échantillons non probabilistes, le rôle essentiel des échantillons d’enquête probabilistes comportant des renseignements riches et pertinents sur des variables auxiliaires est mis en évidence.

Article complet Version PDF

Commentaires à propos de l’article « Inférence statistique avec des échantillons d’enquête non probabiliste » : Échantillons non probabilistes : évaluation et voie à suivre

par Michael A. Bailey

Résumé

Les enquêtes non probabilistes jouent un rôle croissant dans la recherche par enquête. L’étude de Wu rassemble de façon compétente les nombreux outils disponibles lorsqu’on suppose que la non-réponse est conditionnellement indépendante de la variable étudiée. Dans le présent exposé, j’étudie la façon d’intégrer les idées de Wu dans un cadre plus large qui englobe le cas dans lequel la non-réponse dépend de la variable étudiée, un cas qui est particulièrement dangereux dans les sondages non probabilistes.

Article complet Version PDF

Commentaires à propos de l’article « Inférence statistique avec des échantillons d’enquête non probabiliste »

par Michael R. Elliott

Résumé

Cet exposé vise à approfondir l’examen de Wu sur l’inférence à partir d’échantillons non probabilistes, ainsi qu’à mettre en évidence les aspects qui constituent probablement d’autres pistes de recherche utiles. Elle se termine par un appel en faveur d’un registre organisé d’enquêtes probabilistes de grande qualité qui visera à fournir des renseignements utiles à l’ajustement d’enquêtes non probabilistes.

Article complet Version PDF

Commentaires à propos de l’article « Inférence statistique avec des échantillons d’enquête non probabiliste »

par Sharon L. Lohr

Résumé

Des hypothèses solides sont nécessaires pour faire des inférences au sujet d’une population finie à partir d’un échantillon non probabiliste. Les statistiques d’un échantillon non probabiliste devraient être accompagnées de preuves que les hypothèses sont respectées et que les estimations ponctuelles et les intervalles de confiance sont propres à l’utilisation. Je décris certains diagnostics qui peuvent être utilisés pour évaluer les hypothèses du modèle, et je discute des questions à prendre en considération au moment de décider s’il convient d’utiliser les données d’un échantillon non probabiliste.

Article complet Version PDF

Commentaires à propos de l’article « Inférence statistique avec des échantillons d’enquête non probabiliste » : La miniaturisation de la corrélation due à un défaut des données : une stratégie polyvalente de traitement des échantillons non probabilistes

par Xiao-Li Meng

Résumé

Il n’est pas possible de tirer parti de la puissante probabilité du plan pour établir l’inférence fondée sur la randomisation à partir d’échantillons non probabilistes. Cela nous incite à exploiter une probabilité divine naturelle qui accompagne toute population finie. Dans cette perspective, un des paramètres principaux est la corrélation due à un défaut des données (cdd), qui est la corrélation de la population finie sans modèle entre l’indicateur d’inclusion de l’échantillon de la personne et la caractéristique de la personne échantillonnée. Un mécanisme de génération de données équivaut à un échantillonnage probabiliste, en ce qui concerne l’effet de plan, si et seulement si la cdd correspondante est de l’ordre (stochastique) N-1/2, où N est la taille de la population (Meng, 2018). Par conséquent, les méthodes d’estimation linéaire valides existantes pour les échantillons non probabilistes peuvent être converties en plusieurs stratégies de miniaturisation de la cdd jusqu’à l’ordre N-1/2. Les méthodes quasi fondées sur le plan permettent d’accomplir cette tâche en réduisant la variabilité entre les N propensions d’inclusion au moyen d’une pondération. L’approche fondée sur un modèle de superpopulation permet d’atteindre le même objectif par la réduction de la variabilité des caractéristiques des N personnes en les remplaçant par leurs résidus issus d’un modèle de régression. Les estimateurs doublement robustes doivent la propriété dont ils portent le nom au fait qu’une corrélation est nulle chaque fois qu’une des variables corrélées est constante, quelle qu’elle soit. Comprendre les points communs de ces méthodes au moyen de la cdd nous aide à voir clairement la possibilité d’une « robustesse plus que double », c’est-à-dire une estimation valide qui ne dépend pas de la pleine validité du modèle de régression ni de la propension d’inclusion estimée, qui ne sont garanties ni l’une ni l’autre parce que les deux reposent sur la probabilité du procédé. Les renseignements générés par la cdd incitent également à un sous-échantillonnage de contrebalancement, une stratégie visant à créer une miniature de la population à partir d’un échantillon non probabiliste, et comportant un compromis de qualité et de quantité favorable parce que les erreurs quadratiques moyennes sont beaucoup plus sensibles à la cdd qu’à la taille de l’échantillon, en particulier pour les populations de grande taille.

Article complet Version PDF

Commentaires à propos de l’article « Inférence statistique avec des échantillons d’enquête non probabiliste »

par Zhonglei Wang et Jae Kwang Kim

Résumé

L’inférence statistique avec des échantillons d’enquête non probabilistes est un problème complexe bien connu en statistique. Dans la présente analyse, nous proposons deux nouvelles méthodes non paramétriques d’estimation des scores de propension pour pondérer les échantillons non probabilistes, à savoir la projection d’information et le calage uniforme dans un espace de Hilbert à noyau reproduisant.

Article complet Version PDF

Réponse de l’auteur aux commentaires sur l’article « Inférence statistique avec des échantillons d’enquête non probabiliste »

par Changbao Wu

Résumé

La présente réponse contient des remarques supplémentaires sur certaines questions soulevées par les participants à la discussion.

Article complet Version PDF

Articles réguliers

Les modèles d’apprentissage profond sont-ils plus efficaces pour l’imputation de données manquantes dans les enquêtes ? Une comparaison empirique fournit des éléments de preuve

par Zhenhua Wang, Olanrewaju Akande, Jason Poulos et Fan Li

Résumé

L’imputation multiple est une approche populaire pour traiter les données manquantes découlant de la non-réponse dans les enquêtes-échantillons. L’imputation multiple au moyen d’équations en séries (MICE) est l’un des algorithmes d’imputation multiple les plus utilisés pour les données multivariées, mais son fondement théorique est insuffisant et elle exige beaucoup de calculs. Récemment, des méthodes d’imputation des données manquantes fondées sur des modèles d’apprentissage profond ont été élaborées, ce qui a donné des résultats encourageants dans de petites études. Cependant, peu de recherches ont été menées sur l’évaluation de leur rendement dans des contextes réalistes par rapport à la MICE, en particulier dans le cadre de grandes enquêtes. Nous menons de vastes études de simulation fondées sur un sous-échantillon de l’American Community Survey afin de comparer les propriétés d’échantillonnage répété de quatre méthodes d’apprentissage automatique fondées sur l’imputation multiple : MICE avec arbres de classification; MICE avec forêts aléatoires; réseaux antagonistes génératifs pour l’imputation; et imputation multiple à l’aide d’autoencodeurs débruiteurs. Nous constatons que les méthodes d’imputation fondées sur des modèles d’apprentissage profond sont plus efficaces que la MICE en ce qui a trait au temps de calcul. Cependant, étant donné le choix par défaut des hyperparamètres dans les progiciels communs, la MICE avec arbres de classification dépasse constamment, souvent de loin, les méthodes d’imputation fondées sur l’apprentissage profond quant au biais, à l’erreur quadratique moyenne et à la couverture dans une gamme de paramètres réalistes.

Article complet Version PDF

Modélisation de séries chronologiques multiniveaux de la couverture des soins prénataux au Bangladesh à des niveaux administratifs désagrégés

par Sumonkanti Das, Jan van den Brakel, Harm Jan Boonstra et Stephen Haslett

Résumé

Des modèles de séries chronologiques multiniveaux sont appliqués pour estimer les tendances de séries chronologiques de la couverture des soins prénataux à plusieurs niveaux administratifs du Bangladesh, d’après les cycles répétés de la Bangladesh Demographic and Health Survey (BDHS, Enquête démographique et sur la santé du Bangladesh) pendant la période allant de 1994 à 2014. Les modèles de séries chronologiques multiniveaux sont exprimés dans un cadre bayésien hiérarchique et ajustés au moyen de simulations Monte Carlo par chaînes de Markov. Les modèles tiennent compte des intervalles variables de trois ou quatre ans entre les cycles de la BDHS et fournissent aussi des prédictions pour les années intermédiaires. Il est proposé d’appliquer les modèles transversaux de Fay-Herriot aux années d’enquête séparément au niveau des districts, soit l’échelle régionale la plus détaillée. Les séries chronologiques de ces prédictions pour petits domaines au niveau des districts et leurs matrices de variance-covariance sont utilisées comme séries de données d’entrée pour les modèles de séries chronologiques multiniveaux. Dans ces modèles, on examine les corrélations spatiales entre les districts, la pente et l’ordonnée à l’origine aléatoires au niveau des districts, ainsi que les différents modèles de tendance au niveau des districts et aux niveaux régionaux plus élevés pour l’emprunt d’information dans le temps et l’espace. Les estimations des tendances au niveau des districts sont obtenues directement à partir des résultats des modèles, tandis que les estimations des tendances à des échelons régionaux et nationaux plus élevés sont obtenues par agrégation des prédictions au niveau des districts, ce qui donne un ensemble cohérent d’estimations des tendances sur le plan numérique.

Article complet Version PDF

Estimation linéaire optimale dans un échantillonnage à deux phases

par Takis Merkouris

Résumé

L’échantillonnage à deux phases est un plan de sondage rentable couramment utilisé dans les enquêtes. Le présent article propose une méthode optimale d’estimation linéaire des totaux dans un échantillonnage à deux phases, qui exploite au mieux l’information auxiliaire de l’enquête. Tout d’abord, on calcule formellement un meilleur estimateur linéaire sans biais (MELSB) de tout total sous une forme analytique, et on démontre qu’il s’agit d’un estimateur par calage. Ensuite, la reformulation appropriée du MELSB et l’estimation de ses coefficients inconnus permettent de construire un estimateur par la régression « optimal », qui peut également être obtenu au moyen d’une procédure de calage adéquate. Ce calage présente une caractéristique distinctive : l’alignement des estimations des deux phases dans une procédure en une étape comprenant les échantillons combinés de la première et de la deuxième phase. L’estimation optimale est faisable pour certains plans à deux phases souvent employés dans les enquêtes à grande échelle. Pour les plans généraux à deux phases, une autre procédure de calage donne un estimateur par la régression généralisée comme estimateur optimal approximatif. L’approche générale proposée d’estimation optimale permet d’utiliser le plus efficacement possible l’information auxiliaire disponible dans toute enquête à deux phases. Les avantages de cette méthode par rapport aux méthodes existantes d’estimation dans un échantillonnage à deux phases sont démontrés théoriquement et au moyen d’une étude par simulations.

Article complet Version PDF

Modèles spatiaux bayésiens pour l’estimation des moyennes pour petites régions échantillonnées et non échantillonnées

par Hee Cheol Chung et Gauri S. Datta

Résumé

Dans de nombreuses applications, les moyennes de population des petites régions géographiquement adjacentes présentent une variation spatiale. Si les variables auxiliaires disponibles ne tiennent pas suffisamment compte de la configuration spatiale, la variation résiduelle sera incluse dans les effets aléatoires. Par conséquent, l’hypothèse de distribution indépendante et identique sur les effets aléatoires du modèle Fay-Herriot échouera. De plus, des ressources limitées empêchent souvent l’inclusion de nombreuses sous-populations dans l’échantillon; il en résulte de petites régions non échantillonnées. Le problème peut être exacerbé au moment de prédire les moyennes de petites régions non échantillonnées à l’aide du modèle de Fay-Herriot ci-dessus, car les prévisions seront faites uniquement en fonction des variables auxiliaires. Pour remédier à ce problème, nous considérons les modèles spatiaux bayésiens à effets aléatoires qui peuvent prendre en compte de multiples régions non échantillonnées. Dans des conditions légères, nous déterminons si les distributions a posteriori de divers modèles spatiaux sont adaptées à une catégorie utile de densités a priori incompatibles avec les paramètres du modèle. L’efficacité de ces modèles spatiaux est évaluée à partir de données simulées et réelles. Plus précisément, nous examinons les prévisions du revenu médian des familles de quatre personnes à l’échelle de l’État fondées sur la « Current Population Survey » (enquête sur l’état de la population) de 1990 et le « Census for the United States of America » (recensement mené aux États-Unis d’Amérique) de 1980.

Article complet Version PDF


Date de modification :