Techniques d’enquête

Warning Consulter la version la plus récente.

Information archivée dans le Web

L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

Date de diffusion : 27 juin 2019

La revue Techniques d’enquête volume 45, numéro 2 (juin 2019) comprend les dix articles suivants :

Articles sollicité Waksberg

Le calage conditionnel et le sage statisticien

par Donald B. Rubin

Être un statisticien soucieux de calage, c’est appliquer des procédures qui s’inspirent des principes directeurs de l’approche de Neyman en matière d’inférence fréquentiste qui domine actuellement la pensée statistique. Être un statisticien rempli de sagesse devant un ensemble de données, c’est faire appel à certains modes de réflexion bayésiens et fiduciaux pour modérer le simple calage de Neyman. Dans cet article, nous expliquons le mariage des idées à l’aide du concept de calage conditionnel qui tire parti des idées plus récentes en simulation qui sont issues du calcul bayésien approximatif.

Article complet Version PDF

Articles réguliers

Un modèle hiérarchique bayésien bivarié pour estimer les taux de location au comptant de terres cultivées au niveau du comté

par Andreea Erciulescu, Emily Berg, Will Cecere et Malay Ghosh

Le National Agricultural Statistics Service (NASS) du United States Department of Agriculture (USDA) est chargé d’estimer les taux moyens de location au comptant au niveau du comté. Par taux de location au comptant, on entend la valeur marchande des terres louées à l’acre contre argent comptant seulement. Les estimations des taux de location au comptant sont utilisées par les agriculteurs, les économistes et les responsables des politiques. Le NASS recueille des données sur les taux de location au comptant au moyen de la Cash Rent Survey. Comme les tailles d’échantillon réalisées au niveau du comté sont souvent trop petites pour permettre des estimateurs directs fiables, des prédicteurs fondés sur des modèles mixtes sont étudiés. Nous spécifions un modèle bivarié pour obtenir des prédicteurs des taux de location au comptant en 2010 pour les terres cultivées non irriguées à l’aide de données provenant de la Cash Rent Survey de 2009 et de variables auxiliaires provenant de sources externes, dont le Recensement de l’agriculture de 2007. Nous utilisons des méthodes bayésiennes pour l’inférence et présentons les résultats pour l’Iowa, le Kansas et le Texas. L’intégration des données de l’enquête de 2009 grâce à un modèle bivarié mène à des prédicteurs dont les erreurs quadratiques moyennes sont plus petites que celles des prédicteurs fondés sur un modèle univarié.

Article complet Version PDF

Estimation des propensions à répondre et indicateurs de représentativité des réponses utilisant l’information au niveau de la population

par Annamaria Bianchi, Natalie Shlomo, Barry Schouten, Damião N. Da Silva et Chris Skinner

Ces dernières années, les mesures indirectes du biais de non-réponse dans les enquêtes ou d’autres formes de collecte de données ont suscité un vif intérêt, en raison de la diminution progressive des propensions à répondre aux enquêtes et des pressions exercées sur les budgets d’enquête. Ces changements ont poussé les sondeurs à se concentrer davantage sur la représentativité ou l’équilibre des unités échantillonnées répondantes par rapport à des variables auxiliaires pertinentes. Un exemple de mesure est l’indicateur de représentativité, ou indicateur R. Cet indicateur est basé sur la variation d’échantillon pondérée selon le plan de sondage des propensions à répondre estimées. Cela suppose que l’on dispose de données auxiliaires appariées. L’une des critiques de l’indicateur est qu’il ne peut pas être utilisé si l’information auxiliaire est disponible uniquement au niveau de la population. Dans le présent article, nous proposons une nouvelle méthode d’estimation des propensions à répondre qui ne requiert pas d’information auxiliaire pour les non-répondants à l’enquête et qui est fondée sur de l’information auxiliaire pour la population. Ces propensions à répondre basées sur la population peuvent alors être utilisées pour élaborer des indicateurs R faisant appel à des tableaux de contingence de population ou à des fréquences de population. Nous discutons des propriétés statistiques des indicateurs, et évaluons leur performance au moyen d’une étude portant sur des données réelles de recensement et d’une application à la Dutch Health Survey.

Article complet Version PDF

Imputation par régression quantile semi-paramétrique pour une enquête complexe avec application au Conservation Effects Assessment Project

par Emily Berg et Cindy Yu

L’élaboration de procédures d’imputation appropriées pour les données ayant des valeurs extrêmes ou des relations non linéaires avec des covariables constitue un défi important dans les enquêtes à grande échelle. Nous élaborons une procédure d’imputation pour les enquêtes complexes fondée sur la régression quantile semi-paramétrique. Nous appliquons cette méthode au Conservation Effects Assessment Project (CEAP), une enquête à grande échelle qui recueille des données utilisées pour quantifier la perte de sol provenant des champs de culture. Dans la procédure d’imputation, nous générons d’abord des valeurs imputées à partir d’un modèle semi-paramétrique pour les quantiles de la distribution conditionnelle de la réponse pour une covariable donnée. Ensuite, nous évaluons les paramètres d’intérêt à l’aide de la méthode généralisée des moments (MGM). Nous dérivons la distribution asymptotique des estimateurs MGM pour une classe générale de plans d’enquête complexes. Dans les simulations destinées à représenter les données du CEAP, nous évaluons les estimateurs de variance en fonction de la distribution asymptotique et comparons la méthode d’imputation par régression quantile (IRQ) semi-paramétrique à des solutions de rechange entièrement paramétriques et non paramétriques. La procédure de l’IRQ est plus efficace que les solutions de rechange non paramétriques et entièrement paramétriques, et les couvertures empiriques des intervalles de confiance se situent à moins de 1 % du niveau nominal de 95 %. Une application à l’estimation de l’érosion moyenne indique que l’IRQ pourrait être une option viable pour le CEAP.

Article complet Version PDF

Imputation multiple de valeurs manquantes dans des données des ménages contenant des zéros structurels

par Olanrewaju Akande, Jerome Reiter et Andrés F. Barrientos

Nous exposons une méthode d’imputation de valeurs manquantes dans des données catégoriques multivariées emboîtées au sein des ménages. Cette méthode reposant sur un modèle à classes latentes (i) permet des variables au double niveau des ménages et des particuliers, (ii) attribue dans ce modèle une probabilité nulle aux configurations impossibles des ménages et (iii) peut préserver les distributions multivariées à la fois dans et entre les ménages. Nous présentons un échantillonneur de Gibbs pour l’estimation du modèle et la production des imputations. Nous décrivons en outre des stratégies d’amélioration de l’efficacité de calcul pour l’estimation du modèle. Nous illustrons enfin le rendement de la méthode à l’aide de données imitant les variables recueillies dans des recensements types de la population.

Article complet Version PDF

Un algorithme d’optimisation appliqué au problème de stratification unidimensionnelle

par José André de Moura Brito, Tomás Moura da Veiga et Pedro Luis do Nascimento Silva

Ce document présente un nouvel algorithme pour résoudre le problème de stratification unidimensionnelle optimale, lequel se ramène à une détermination des bornes de strate. Lorsque le nombre de strates H et la taille totale de l’échantillon n sont fixes, on obtient les bornes de strate en minimisant la variance de l’estimateur d’un total pour la variable de stratification. C’est un algorithme qui fait appel à la métaheuristique de l’algorithme génétique biaisé à clés aléatoires (BRKGA) pour trouver la solution optimale. Il a été démontré que cette métaheuristique produit des solutions de bonne qualité à de nombreux problèmes d’optimisation à un prix modeste en temps de calcul. L’algorithme est mis en œuvre dans le package stratbr en R disponible à partir de CRAN (de Moura Brito, do Nascimento Silva et da Veiga, 2017a). Nous livrons des résultats numériques pour un ensemble de 27 populations, ce qui permet de comparer le nouvel algorithme à certaines méthodes rivales figurant dans la documentation spécialisée. L’algorithme est d’un meilleur rendement que les méthodes plus simples par approximation. Il est également supérieur à quelques autres approches en optimisation. Il est égal en rendement à la meilleure technique d’optimisation que l’on doit à Kozak (2004). Son principal avantage sur la méthode de Kozak réside dans le couplage de la stratification optimale avec la répartition optimale que proposent de Moura Brito, do Nascimento Silva, Silva Semaan et Maculan (2015), d’où l’assurance que, si les bornes de stratification obtenues atteignent l’optimum global, la solution dégagée dans l’ensemble sera aussi l’optimum global pour les bornes de stratification et la répartition de l’échantillon.

Article complet Version PDF

Une évaluation de l’amélioration de l’exactitude au moyen d’un plan de sondage adaptatif

par Carl-Erik Särndal et Peter Lundquist

De nos jours, il y a une non-réponse élevée dans de nombreuses enquêtes-échantillons, y compris d’importantes enquêtes menées par des organismes statistiques gouvernementaux. Une collecte de données adaptative peut être avantageuse dans cette situation : il est possible de réduire le biais de non-réponse dans les estimations de l’enquête, jusqu’à un certain point, en produisant un ensemble de répondants bien équilibré. Les variables auxiliaires ont un double objectif. Utilisées au cours de la phase d’estimation, elles réduisent le biais, sans toutefois l’éliminer complètement, par une pondération ajustée par calage. Au cours de la phase précédente de collecte de données adaptative, les variables auxiliaires jouent également un rôle important : elles contribuent à réduire le déséquilibre dans l’ensemble final de répondants. Dans le contexte de cette utilisation combinée de variables auxiliaires, le présent article est consacré à un examen de l’écart entre l’estimation par calage et l’estimation sans biais (réponse complète). Nous montrons que cet écart est la somme de deux composantes. La composante réductible peut être réduite, par la collecte de données adaptative, jusqu’à zéro si une réponse parfaitement équilibrée est obtenue par rapport à un vecteur auxiliaire choisi. En revanche, la composante résistante ne varie pas ou varie peu sous l’effet d’une réponse mieux équilibrée; elle représente une partie de l’écart qu’un plan adaptatif ne permet pas d’éliminer. La taille relative de cette première composante est un indicateur de l’avantage qu’on peut tirer d’un plan de sondage adaptatif.

Article complet Version PDF

Nouveau mode d’estimation d’un modèle logistique cumulatif avec des données d’enquêtes à plans complexes

par Phillip S. Kott et Peter Frechtel

Quand on ajuste une variable catégorique ordonnée à L > 2 niveaux à un ensemble de covariables sur données d’enquêtes à plans complexes, on suppose communément que les éléments de la population suivent un modèle simple de régression logistique cumulative (modèle de régression logistique à cotes proportionnelles). Cela signifie que la probabilité que la variable catégorique se situe à un certain niveau ou au-dessous est une fonction logistique binaire des covariables du modèle. Ajoutons, sauf pour l’ordonnée à l’origine, les valeurs des paramètres de régression logistique sont les mêmes à chaque niveau. La méthode « fondée sur le plan » classique servant à ajuster le modèle à cotes proportionnelles est fondée sur le pseudo-maximum de vraisemblance. Nous comparons les estimations calculées par cette méthode à celles d’un traitement dans un cadre basé sur un modèle robuste sensible au plan. Nous indiquons par un simple exemple numérique en quoi les estimations tirées de ces deux traitements peuvent différer. La nouvelle méthode peut facilement s’élargir pour ajuster un modèle logistique cumulatif général où l’hypothèse du parallélisme peut ne pas se vérifier. Un test de cette hypothèse peut aisément s’ensuivre.

Article complet Version PDF

Combinaison d’échantillons probabilistes indépendants

par Anton Grafström, Magnus Ekström, Bengt Gunnar Jonsson, Per-Anders Esseen et Göran Ståhl

Dans divers domaines, il est de plus en plus important de fusionner les sources d’information disponibles pour améliorer les estimations des caractéristiques de la population. En présence de plusieurs échantillons probabilistes indépendants d’une population finie, nous examinons plusieurs solutions d’estimateur combiné du total de la population, basé soit sur une combinaison linéaire d’estimateurs distincts, soit sur une méthode par échantillon combiné. L’estimateur en combinaison linéaire fondé sur des variances estimées est susceptible d’être biaisé, car les estimateurs distincts du total de la population peuvent être fortement corrélés à leurs estimateurs de la variance respectifs. Nous illustrons la possibilité d’utiliser un échantillon combiné pour estimer les variances des estimateurs distincts, ce qui donne des estimateurs de la variance groupés généraux. Ces estimateurs de la variance groupés utilisent tous les renseignements disponibles et peuvent réduire considérablement le biais d’une combinaison linéaire d’estimateurs distincts.

Article complet Version PDF

Réconciliation bayésienne dans le modèle de Fay-Herriot par suppression aléatoire

par Balgobin Nandram, Andreea L. Erciulescu et Nathan B. Cruze

La réconciliation d’estimations de niveau inférieur à des estimations de niveau supérieur est une activité importante au National Agricultural Statistics Service (NASS) du département de l’Agriculture des États-Unis (par exemple, réconcilier les estimations de superficie d’ensemencement en maïs des comtés aux estimations au niveau des États). Nous posons qu’un comté est un petit domaine et employons le modèle initial de Fay-Herriot pour obtenir une méthode bayésienne générale pour réconcilier les estimations des comtés aux estimations des États (constituant la cible). Dans ce cas, nous supposons que les estimations cibles sont connues et dégageons les estimations des comtés avec pour contrainte que leur addition donne la valeur cible. C’est là une réconciliation externe qui a de l’importance pour la statistique officielle, et non seulement pour les données du NASS, et on le rencontre plus généralement dans les estimations sur petits domaines. Il est possible de réconcilier de telles estimations en « supprimant » un des comtés (habituellement le dernier) de manière à intégrer la contrainte de réconciliation au modèle. Il est tout aussi vrai cependant que les estimations peuvent changer selon le comté qui est supprimé au moment d’inclure la contrainte dans le modèle. Dans la présente étude, nous accordons à chaque petit domaine une chance de suppression et parlons pour toute cette procédure de méthode de réconciliation par suppression aléatoire. Nous démontrons empiriquement que les estimations accusent des différences selon le comté supprimé et qu’il existe des différences entre ces estimations et celles obtenues par suppression aléatoire. Ces différences peuvent être jugées petites, mais il est hautement logique de procéder par suppression aléatoire; aucun comté n’a alors droit à un traitement préférentiel et nous observons également une modeste hausse de la précision par rapport à une réconciliation avec suppression du dernier petit domaine.

Article complet Version PDF


Date de modification :