Techniques d’enquête

Date de diffusion : 24 juin 2021

La revue Techniques d’enquête volume 47, numéro 1 (juin 2021) comprend les neuf articles suivants :

Article sollicité Waksberg

Science et gestion d’enquête

par Roger Tourangeau

Il est maintenant possible de gérer des enquêtes à l’aide de modèles statistiques et d’autres outils applicables en temps réel. Le présent article porte sur trois nouveautés nées des tentatives d’adoption d’une démarche plus scientifique dans la gestion du travail sur le terrain : (1) l’utilisation de plans réactifs et adaptatifs aux fins de réduction du biais de non-réponse, d’autres sources d’erreur ou des coûts; (2) la définition de l’itinéraire optimal des déplacements des intervieweurs de façon à réduire les coûts; et (3) la rétroaction rapide aux intervieweurs aux fins de diminution des erreurs de mesure. L’article commence en examinant les expériences et les études par simulations portant sur l’efficacité des plans adaptatifs et réactifs. Ces études suggèrent à penser que ces plans peuvent produire des gains modestes dans la représentativité des échantillons d’enquête ou des économies de coûts modestes, mais qu’ils sont aussi susceptibles d’entraîner des répercussions négatives. La section suivante de l’article étudie les efforts déployés pour fournir aux intervieweurs un itinéraire recommandé à suivre pendant leur prochain déplacement sur le terrain, l’objectif étant de faire correspondre davantage le travail des intervieweurs sur le terrain avec les priorités de recherche tout en réduisant les temps de déplacement. Notons toutefois qu’une étude mettant à l’essai cette stratégie a révélé que, souvent, les intervieweurs ignorent les instructions. Ensuite, l’article décrit les tentatives de donner une rétroaction rapide aux intervieweurs, à partir des enregistrements automatiques de leurs interviews. Souvent, les intervieweurs lisent les questions d’une manière qui influence les réponses des répondants. La correction de ce type de problèmes a rapidement apporté des améliorations notables de la qualité des données. Toutes les méthodes visent à remplacer le jugement des intervieweurs, des superviseurs sur le terrain et des gestionnaires d’enquête par des modèles statistiques et des constatations scientifiques

Article complet Version PDF

Articles réguliers

Intégration de données d’enquêtes probabilistes et de mégadonnées aux fins d’inférence de population finie au moyen d’une imputation massive

par Shu Yang, Jae Kwang Kim et Youngdeok Hwang

À l’ère des mégadonnées, on dispose d’un nombre croissant de sources de données pour les analyses statistiques. Comme exemple important d’inférence de population finie, nous examinons une approche d’imputation pour la combinaison de données tirées d’une enquête probabiliste et de mégadonnées. Nous nous concentrons sur une situation où la variable à l’étude est observée dans les mégadonnées seulement, mais les autres variables auxiliaires sont couramment observées dans les deux sources de données. Contrairement à l’imputation habituellement utilisée pour l’analyse des données manquantes, nous créons des valeurs imputées pour toutes les unités de l’échantillon probabiliste. Une imputation massive de ce type est intéressante dans le contexte de l’intégration des données d’enquête (Kim et Rao, 2012). Nous étendons l’imputation massive comme outil d’intégration des données d’enquête et des mégadonnées ne provenant pas d’enquêtes. Nous présentons les méthodes d’imputation massive et leurs propriétés statistiques. De plus, l’estimateur d’appariement de Rivers (2007) est traité comme cas particulier. L’estimation de la variance au moyen de données obtenues par imputation massive est abordée. Les résultats de la simulation montrent que les estimateurs proposés donnent de meilleurs résultats que les estimateurs concurrents en matière de robustesse et d’efficacité.

Article complet Version PDF

La méthode de vraisemblance empirique fondée sur l’échantillon sous un plan de sondage complexe avec réponses brouillées

par Sixia Chen, Yichuan Zhao et Yuke Wang

L’utilisation de réponses brouillées est un moyen efficace d’effectuer le contrôle de la divulgation statistique. Les réponses brouillées peuvent être produites au moyen d’un procédé aléatoire contrôlé. Dans le présent article, nous proposons d’utiliser la méthode de la vraisemblance empirique fondée sur l’échantillon pour effectuer des inférences statistiques dans le cadre d’un plan de sondage complexe avec réponses brouillées. Plus précisément, nous proposons d’utiliser un intervalle de confiance de type Wilk pour l’inférence statistique. La méthode proposée peut servir d’outil général pour l’inférence en présence de fichiers de données d’enquête confidentielles à grande diffusion. Les propriétés asymptotiques sont produites, et l’étude par simulations limitée confirme la validité de la théorie. De plus, nous appliquons la méthode proposée à des situations réelles.

Article complet Version PDF

Méthode de détermination d’une stratégie d’échantillonnage efficace et robuste en cas d’incertitude du modèle

par Edgar Bueno et Dan Hedlin

Nous nous penchons sur le problème du choix d’une stratégie d’échantillonnage et, tout particulièrement, d’un plan de sondage. Nous proposons une mesure du risque, dans laquelle la minimisation de la valeur oriente le choix. La méthode repose sur un modèle de superpopulation et l’incertitude entourant ses paramètres est prise en compte grâce à une distribution a priori. L’utilisation de cette méthode est illustrée au moyen d’un ensemble de données réel, qui donne des résultats satisfaisants. Comme base de référence, nous utilisons la stratégie qui couple l’estimateur par la différence à un échantillonnage avec probabilité proportionnelle à la taille, car elle est reconnue comme optimale quand le modèle de superpopulation est entièrement connu. Nous démontrons qu’y compris en cas de spécifications erronées modérées du modèle, cette stratégie n’est pas robuste et peut être surpassée par d’autres solutions.

Article complet Version PDF

Inférence bayésienne prédictive des proportions dans de petits domaines avec biais de sélection

par Seongmi Choi, Balgobin Nandram et Dalho Kim

Dans un article précédent, nous avons élaboré un modèle pour effectuer une inférence sur des proportions de petits domaines en cas de biais de sélection dans lequel les réponses binaires et les probabilités de sélection sont corrélées. Il s’agit du modèle de sélection non ignorable homogène; une sélection non ignorable signifie que les probabilités de sélection et les réponses binaires sont corrélées. Il a été montré que le modèle de sélection non ignorable homogène donne de meilleurs résultats qu’un modèle de sélection ignorable de référence. Toutefois, l’une des limites du modèle de sélection non ignorable homogène réside dans le fait que les distributions des probabilités de sélection sont supposées identiques dans tous les domaines. C’est pourquoi nous introduisons un modèle plus général, le modèle de sélection non ignorable hétérogène, dans lequel les probabilités de sélection ne sont pas distribuées identiquement dans tous les domaines. Nous avons utilisé des méthodes de Monte Carlo par chaînes de Markov pour ajuster les trois modèles. Nous illustrons notre méthodologie et comparons nos modèles à l’aide d’un exemple sur la limitation d’activité sévère de la U.S. National Health Interview Survey (Enquête nationale sur la santé réalisée par interviews aux États-Unis). Nous réalisons également une étude par simulations pour démontrer que notre modèle de sélection non ignorable hétérogène est nécessaire en présence d’un biais de sélection modéré ou fort.

Article complet Version PDF

Estimation sur petits domaines réconciliée sous le modèle de base au niveau de l’unité lorsque les taux d’échantillonnage sont non négligeables

par Marius Stefan et Michael A. Hidiroglou

Nous examinons l’estimation d’une moyenne sur petits domaines sous le modèle de base au niveau de l’unité. La somme des estimateurs dépendant d’un modèle qui en résultent peut ne pas correspondre aux estimations obtenues au moyen d’un estimateur d’enquête direct qui est considéré comme précis pour l’ensemble de ces petits domaines. La réconciliation force la concordance des estimateurs fondés sur un modèle avec l’estimateur direct au niveau du domaine agrégé. L’estimateur par la régression généralisée est l’estimateur direct que nous utilisons pour réaliser la réconciliation. Dans le présent document, nous comparons des estimateurs sur petits domaines réconciliés d’après quatre procédures. La première procédure permet d’obtenir des estimateurs réconciliés au moyen d’un ajustement par le ratio. La deuxième procédure repose sur le meilleur estimateur linéaire sans biais empirique obtenu sous le modèle au niveau de l’unité augmenté à l’aide d’une variable adéquate qui assure la réconciliation. La troisième procédure utilise des estimateurs pseudo-empiriques construits au moyen de poids de sondage convenablement choisis de sorte que, une fois agrégés, ils concordent avec l’estimateur direct fiable pour le plus grand domaine. La quatrième procédure permet d’obtenir des estimateurs réconciliés qui résultent d’un problème de minimisation sous la contrainte donnée par la condition de réconciliation. Ces procédures de réconciliation sont appliquées aux estimateurs sur petits domaines lorsque les taux d’échantillonnage sont non négligeables. Les estimateurs réconciliés qui en résultent sont comparés quant au biais relatif et à l’erreur quadratique moyenne dans une étude par simulations fondée sur un plan de sondage ainsi qu’un exemple fondé sur des données d’enquête réelles.

Article complet Version PDF

Estimation des discontinuités de domaine au moyen de modèles de Fay-Herriot hiérarchiques bayésiens

par Jan A. van den Brakel et Harm-Jan Boonstra

Les changements dans le plan d’une enquête répétée entraînent généralement des effets systématiques dans les estimations de l’échantillon, qu’on appellera discontinuités dans la suite du texte. Pour ne pas confondre les changements réels d’une période à l’autre avec les effets d’un remaniement, on quantifie souvent les discontinuités en mettant en œuvre parallèlement le plan précédent et le nouveau pendant un certain temps. Les tailles d’échantillon de ces exécutions parallèles sont généralement trop petites pour que des estimateurs directs puissent être appliqués aux discontinuités des domaines. On propose un modèle de Fay-Herriot (FH) hiérarchique bayésien bivarié pour prédire plus précisément les discontinuités de domaine et on l’applique à un remaniement de l’enquête néerlandaise sur la victimisation criminelle (Dutch Crime Victimzation Survey). Cette méthode est comparée à un modèle de FH univarié où les estimations directes selon l’approche ordinaire sont utilisées comme covariables dans un modèle de FH pour l’autre approche appliquée sur une taille d’échantillon réduite et un modèle de FH univarié où les estimations directes des discontinuités sont modélisées directement. On propose une procédure de sélection ascendante corrigée qui minimise le critère d’information de Watanabe-Akaike (Watanabe-Akaike Information Criterion ou WAIC) jusqu’à ce que la réduction du WAIC soit inférieure à l’erreur-type de ce critère. Au moyen de cette approche, on choisit des modèles plus parcimonieux, ce qui empêche de sélectionner des modèles complexes qui tendent à surajuster les données.

Article complet Version PDF

Le regroupement bayésien aux fins d’analyse des données catégoriques sur petits domaines

par Aejeong Jo, Balgobin Nandram et Dal Ho Kim

Les stratégies bayésiennes de regroupement servent à résoudre les problèmes de précision liés aux analyses statistiques des données sur petits domaines. Dans ces cas, les échantillons des sous-populations sont généralement petits, même si la population ne l’est pas nécessairement. Une autre solution consiste à regrouper des données semblables en vue de réduire le nombre de paramètres dans le modèle. De nombreuses enquêtes recueillent des données catégoriques par domaine, lesquelles sont ensuite réunies dans un tableau de contingence. Nous examinons les modèles de regroupement bayésiens hiérarchisés avec une loi a priori de processus de Dirichlet pour analyser les données catégoriques sur de petits domaines. Toutefois, la loi a priori utilisée aux fins de regroupement de ces données entraîne souvent un problème de rétrécissement excessif. Pour corriger le problème, nous séparons les paramètres en effets globaux et locaux. Cette étude porte sur le regroupement de données au moyen d’un processus de Dirichlet. Nous comparons les modèles de regroupement utilisant des données sur la densité minérale osseuse (DMO) tirées de la Third National Health and Nutrition Examination Survey, portant sur la période de 1988 à 1994 aux États-Unis. Nos analyses des données sur la DMO sont effectuées au moyen d’un échantillonneur de Gibbs et d’un échantillonnage par tranche pour effectuer les calculs a posteriori.

Article complet Version PDF

Communication brève

Note sur l’imputation multirobuste par appariement selon la moyenne prédictive réalisée avec des données d’enquête complexes

par Sixia Chen, David Haziza et Alexander Stubblefield

L’imputation par appariement selon la moyenne prédictive est couramment utilisée pour régler les cas de non-réponse dans le cadre d’enquêtes. L’approche habituelle consiste à spécifier un modèle de régression unique. Dans la présente note, nous proposons une nouvelle procédure par appariement selon la moyenne prédictive permettant à l’utilisateur de spécifier plusieurs modèles de régression. L’estimateur obtenu est multirobuste en ce sens qu’il demeure convergent si l’un des modèles de régression spécifié est défini correctement. Les résultats d’une étude de simulation indiquent que la méthode proposée fonctionne bien en termes de biais et d’efficacité.

Article complet Version PDF


Date de modification :