Techniques d’enquête

Warning Consulter la version la plus récente.

Information archivée dans le Web

L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

Juin 2014

La revue Techniques d'enquête Volume 40, numéro 1 (juin 2014) comprend les 8 articles suivants :

Articles réguliers :

Modélisation hiérarchique bayésienne de proportions dans de petits domaines pondérées par les poids de sondage

Benmei Liu, Partha Lahiri et Graham Kalton

Résumé

L’article décrit les résultats d’une étude par simulation Monte Carlo réalisée en vue de comparer l’efficacité de quatre modèles hiérarchiques bayésiens d’estimation sur petits domaines pour estimer des proportions au niveau de l’État au moyen de données provenant d’échantillons aléatoires simples stratifiés tirés d’une population finie fixe. Deux des modèles reposent sur les hypothèses fréquentes selon lesquelles, pour chaque petit domaine échantillonné, la proportion pondérée par les poids de sondage estimée suit une loi normale et sa variance d’échantillonnage est connue. L’un de ces modèles comprend un modèle de lien linéaire et l’autre, un modèle de lien logistique. Les deux autres modèles utilisent tous deux un modèle de lien logistique et reposent sur l’hypothèse que la variance d’échantillonnage est inconnue. L’un de ces deux modèles suppose que le modèle d’échantillonnage obéit à une loi normale et l’autre, qu’il obéit à une loi bêta. L’étude montre que, pour chacun des quatre modèles, la couverture sous le plan de sondage de l’intervalle de crédibilité des proportions au niveau de l’État en population finie s’écarte considérablement du niveau nominal de 95 % utilisé pour construire les intervalles.

Estimation bayésienne linéaire en population finie en considérant en particulier les données catégoriques

Kelly Cristina M. Gonçalves, Fernando A. S. Moura et Helio S. Migon

Résumé

L'estimateur bayésien linéaire en population finie est obtenu en partant d'un modèle de régression à deux degrés spécifié uniquement par les moyennes et les variances de certains paramètres du modèle associés à chaque degré de la hiérarchie. Nombre d'estimateurs fondés sur le plan de sondage usuels décrits dans la littérature peuvent être obtenus en tant que cas particuliers. Un nouvel estimateur par le ratio est également proposé pour la situation pratique où de l'information auxiliaire est disponible. L'application de la même approche bayésienne linéaire est proposée pour estimer des proportions pour des données catégoriques multiples associées aux unités de la population finie, ce qui constitue la principale contribution des présents travaux, et est illustrée au moyen d'un exemple numérique.

Une méthode non paramétrique de production de populations synthétiques qui tient compte des caractéristiques des plans de sondage complexes

Qi Dong, Michael R. Elliott et Trivellore E. Raghunathan

Résumé

Dans la littérature n’ayant pas trait aux sondages, il est fréquent de supposer que l’échantillonnage est effectué selon un processus aléatoire simple qui produit des échantillons indépendants et identiquement distribués (IID). De nombreuses méthodes statistiques sont élaborées en grande partie dans cet univers IID. Or, l’application de ces méthodes aux données provenant de sondages complexes en omettant de tenir compte des caractéristiques du plan de sondage peut donner lieu à des inférences erronées. Donc, beaucoup de temps et d’effort ont été consacrés à l’élaboration de méthodes statistiques permettant d’analyser les données d’enquêtes complexes en tenant compte du plan de sondage. Ce problème est particulièrement important lorsqu’on génère des populations synthétiques en faisant appel à l’inférence bayésienne en population finie, comme cela se fait souvent dans un contexte de données manquantes ou de risque de divulgation, ou lorsqu’on combine des données provenant de plusieurs enquêtes. En étendant les travaux antérieurs décrits dans la littérature sur le bootstrap bayésien en population finie, nous proposons une méthode pour produire des populations synthétiques à partir d’une loi prédictive a posteriori d’une façon qui inverse les caractéristiques du plan de sondage complexe et génère des échantillons aléatoires simples dans une optique de superpopulation, en ajustant les données complexes afin qu’elles puissent être analysées comme des échantillons aléatoires simples. Nous considérons une étude par simulation sous un plan de sondage en grappes stratifié avec probabilités inégales de sélection, et nous appliquons la méthode non paramétrique proposée pour produire des populations synthétiques pour la National Health Interview Survey (NHIS) et la Medical Expenditure Panel Survey (MEPS) de 2006, qui sont des enquêtes à plan de sondage en grappes stratifié avec probabilités inégales de sélection.

Application de la méthode des répliques des différences successives pour estimer les variances

Stephen Ash

Résumé

Fay et Train (1995) présentent une méthode qu’ils nomment successive difference replication, c.-à-d. répliques des différences successives, qui peut être utilisée pour estimer la variance d’un total estimé au moyen d’un échantillon aléatoire systématique tiré d’une liste ordonnée. L’estimateur prend la forme générale d’un estimateur de variance par rééchantillonnage, où les facteurs de rééchantillonnage sont construits de manière à imiter l’estimateur par différences successives. Cet estimateur est une modification de celui présenté dans Wolter (1985). Le présent article étend la méthodologie en expliquant l’effet de l’attribution des lignes de matrice sur l’estimateur de variance, en montrant comment un jeu réduit de répliques mène à un estimateur raisonnable et en établissant les conditions pour que la méthode des  répliques des différences successives soit équivalente à l’estimateur par différences successives.

Estimation de variance par linéarisation pour des indices de pauvreté et d’exclusion sociale

Eric Graf et Yves Tillé

Résumé

Nous avons mis en œuvre la technique de linéarisation généralisée reposant sur le concept de fonction d’influence tout comme l’a fait Osier (2009) pour estimer la variance de statistiques complexes telles que les indices de Laeken. Des simulations réalisées avec le langage R montrent que, pour les cas où l’on a recours à une estimation par noyau gaussien de la fonction de densité des revenus considérés, on obtient un fort biais pour la valeur estimée de la variance. On propose deux autres méthodes pour estimer la densité qui diminuent fortement le biais constaté. L’une de ces méthodes a déjà été esquissée par Deville (2000). Les résultats publiés ici permettront une amélioration substantielle de la qualité des informations sur la précision de certains indices de Laeken diffusées et comparées internationalement.

Propriétés théoriques et empiriques d’estimateurs par la régression fondés sur un test de décision assistés par modèle

Jun Shao, Eric Slud, Yang Cheng, Sheng Wang et Carma Hogue

Résumé

En 2009, deux enquêtes importantes réalisées par la division des administrations publiques du U.S. Census Bureau ont été remaniées afin de réduire la taille de l’échantillon, d’économiser des ressources et d’améliorer la précision des estimations (Cheng, Corcoran, Barth et Hogue 2009). Sous le nouveau plan de sondage, chaque strate habituelle, définie par l’État et le type d’administration publique, qui contient un nombre suffisant d’unités (administrations publiques) est divisée en deux sous-strates en fonction de la masse salariale totale de chaque unité afin de tirer un plus petit échantillon de la sous-strate des unités de petite taille. L’approche assistée par modèle est adoptée pour estimer les totaux de population. Des estimateurs par la régression utilisant des variables auxiliaires sont obtenus soit pour chaque sous-strate ainsi créée soit pour la strate originale en regroupant des deux sous-strates. Cheng, Slud et Hogue (2010) ont proposé une méthode fondée sur un test de décision qui consiste à appliquer un test d’hypothèse pour décider quel estimateur par la régression sera utilisé pour chaque strate originale. La convergence et la normalité asymptotique de ces estimateurs assistés par modèle sont établies ici sous un cadre asymptotique fondé sur le plan de sondage ou assisté par modèle. Nos résultats asymptotiques suggèrent aussi deux types d’estimateurs de variance convergents, l’un obtenu par substitution des quantités inconnues dans les variances asymptotiques et l’autre en appliquant la méthode du bootstrap. La performance de tous les estimateurs des totaux et des estimateurs de leur variance est examinée au moyen d’études empiriques. L’Annual Survey of Public Employment and Payroll (ASPEP) des États-Unis est utilisé pour motiver et illustrer notre étude.

L’influence de la méthode d’échantillonnage et des intervieweurs sur la réalisation de l’échantillon dans l’Enquête sociale européenne

Natalja Menold

Résumé

Le présent article traite de l’effet de différentes méthodes d’échantillonnage sur la qualité de l’échantillon réalisé. On s’attendait à ce que cet effet dépende de la mesure dans laquelle les intervieweurs ont la liberté d’interviewer des personnes avec lesquelles il leur est facile de prendre contact ou dont il leur est facile d’obtenir la coopération (donc d’effectuer des substitutions). L’analyse a été menée dans un contexte transculturel en utilisant des données provenant des quatre premières vagues de l’Enquête sociale européenne (ESS, pour European Social Survey). Les substitutions sont mesurées par les écarts par rapport au ratio hommes-femmes de 50/50 dans des sous-échantillons constitués de couples hétérosexuels. Des écarts importants ont été observés dans de nombreux pays qui participent à l’ESS. Ces écarts se sont également avérés les plus faibles lorsque des registres officiels de résidents avaient servi de base de sondage pour le tirage des échantillons (échantillonnage à partir de registres de personnes) dans le cas où l’un des conjoints était plus difficile à joindre que l’autre. Cette portée des substitutions ne variait pas d’une vague à l’autre de l’ESS et était faiblement corrélée au mode de rémunération et aux procédures de contrôle des intervieweurs. Les résultats permettent de conclure que les échantillons tirés de registres de personnes sont de plus haute qualité.

Communications brèves :

Imputation multiple bayésienne pour des données catégoriques à grande échelle contenant des zéros structurels

Daniel Manrique-Vallier et Jerome P. Reiter

Résumé

Nous proposons une approche d’imputation multiple des réponses manquant aléatoirement dans les enquêtes à grande échelle qui ne portent que sur des variables catégoriques présentant des zéros structurels. Notre approche consiste à utiliser des mélanges de lois multinomiales comme outils d’imputation et à tenir compte des zéros structurels en concevant les données observées comme un échantillon tronqué issu d’une population hypothétique ne contenant pas de zéros structurels. Cette approche possède plusieurs caractéristiques intéressantes : les imputations sont générées à partir de modèles bayésiens conjoints cohérents qui tiennent compte automatiquement des dépendances complexes et s’adaptent facilement à de grands nombres de variables. Nous décrivons un algorithme d’échantillonnage de Gibbs pour mettre en œuvre l’approche et illustrons son potentiel au moyen d’une étude par échantillonnage répété en utilisant des microdonnées de recensement à grande diffusion provenant de l’État de New York, aux États‑Unis.

Date de modification :