Techniques d’enquête
Date de diffusion : Le 21 juin 2022
La revue Techniques d’enquête volume 48, numéro 1 (juin 2022) comprend les dix articles suivants :
Articles réguliers
Classification par entropie maximale aux fins de couplage d’enregistrements
par Danhyang Lee, Li-Chun Zhang et Jae Kwang Kim
Résumé
Dans le cadre d’un couplage d’enregistrements, on associe des enregistrements résidant dans des fichiers distincts que l’on pense être reliés à la même entité. Dans la présente étude, nous abordons le couplage d’enregistrements comme un problème de classification et adaptons la méthode de classification par entropie maximale de l’apprentissage automatique pour coupler des enregistrements, tant dans l’environnement d’apprentissage automatique supervisé que non supervisé. L’ensemble de couplages est choisi en fonction de l’incertitude connexe. D’une part, notre cadre de travail permet de surmonter certaines failles théoriques persistantes de l’approche classique dont les pionniers ont été Fellegi et Sunter (1969); d’autre part, l’algorithme proposé est entièrement automatique, contrairement à l’approche classique qui nécessite généralement un examen manuel afin de résoudre des cas indécis.
La méthode d’ancrage : estimation des effets de l’intervieweur en l’absence d’attribution imbriquée de l’échantillon
par Michael R. Elliott, Brady T. West, Xinyu Zhang et Stephanie Coffey
Résumé
Les études méthodologiques des effets des intervieweurs humains sur la qualité des données d’enquête ont longtemps été limitées par une hypothèse critique selon laquelle les intervieweurs d’une enquête donnée sont attribués à des sous-ensembles aléatoires de l’échantillon global plus important (également connu sous le nom d’attribution imbriquée). En l’absence de ce type de conception d’étude, les estimations des effets de l’intervieweur sur les mesures d’intérêt de l’enquête, plutôt que les effets de recrutement ou de mesure spécifiquement introduits par les intervieweurs, peuvent refléter des différences entre les intervieweurs dans les caractéristiques des membres de l’échantillon qui leur sont assignés. Les tentatives précédentes d’approximation de l’attribution imbriquée se sont généralement appuyées sur des modèles de régression pour conditionner les facteurs qui pourraient être liés à l’attribution des intervieweurs. Nous proposons une nouvelle approche pour surmonter ce manque d’attribution imbriquée lors de l’estimation des effets de l’intervieweur. Cette approche, que nous appelons la « méthode d’ancrage », tire avantage des corrélations entre les variables observées qui sont peu susceptibles d’être influencées par les intervieweurs (« ancres ») et les variables qui peuvent être sujettes aux effets de l’intervieweur, et ce, afin d’éliminer les composantes des corrélations induites par l’intervieweur que l’absence d’attribution imbriquée peut engendrer. Nous tenons compte à la fois des approches fréquentistes et bayésiennes, ces dernières pouvant utiliser des renseignements sur les variances de l’effet de l’intervieweur dans les précédents ensembles de données d’une étude, s’ils sont disponibles. Nous évaluons cette nouvelle méthodologie de manière empirique à l’aide d’une étude par simulation, puis nous illustrons son application au moyen de données d’enquête réelles provenant du Behavioral Risk Factor Surveillance System (BRFSS), où les identifiants des intervieweurs sont fournis dans les fichiers de données à grande diffusion. Bien que la méthode que nous proposons partage certaines des limites de l’approche traditionnelle, à savoir le besoin de variables associées au résultat d’intérêt qui sont également exemptes d’erreur de mesure, elle permet d’éviter le besoin d’inférence conditionnelle et présente donc de meilleures qualités inférentielles lorsque l’accent est mis sur les estimations marginales. Elle montre également des signes de réduction supplémentaire de la surestimation des effets plus importants de l’intervieweur par rapport à l’approche traditionnelle.
Efficacité relative des méthodes fondées sur l’estimation par régression d’enquête assistée par un modèle : une étude par simulations
par Erin R. Lundy et J.N.K. Rao
Résumé
L’utilisation de données auxiliaires pour améliorer l’efficacité des estimateurs de totaux et de moyennes grâce à l’estimation par régression d’enquête assistée par un modèle a suscité un grand intérêt au cours de ces dernières années. Les estimateurs par la régression généralisée (ERG), basés sur un modèle de régression linéaire de travail, sont actuellement utilisés dans les enquêtes auprès d’établissements au sein de Statistique Canada et dans plusieurs autres organismes statistiques. Les estimateurs ERG utilisent des poids d’enquête communs à toutes les variables de l’étude et tiennent compte des totaux de population connus des variables auxiliaires. De plus en plus, de nombreuses variables auxiliaires sont disponibles, dont certaines peuvent être extérieures. Cela donne lieu des poids d’ERG fluctuants lorsque toutes les variables auxiliaires disponibles, y compris les interactions entre les variables catégorielles, sont utilisées dans le modèle de régression linéaire de travail. Par ailleurs, de nouvelles méthodes d’apprentissage automatique, comme les arbres de régression et les méthodes LASSO, sélectionnent automatiquement les variables auxiliaires significatives et donnent lieu à des poids non négatifs stables et à des gains d’efficacité possibles par rapport aux estimateurs ERG. Dans le présent article, une étude par simulations, basée sur un ensemble de données réelles d’une enquête réalisée auprès d’entreprises considérées comme la population cible, est menée pour étudier la performance relative des estimateurs ERG, des arbres de régression et des méthodes LASSO en matière d’efficacité des estimateurs et de propriétés des poids de régression connexes. Des scénarios d’échantillonnage probabiliste et d’échantillonnage non probabiliste sont étudiés.
Inférence bayésienne pour un modèle des composantes de la variance fondée sur la vraisemblance composite par paire à partir des données d’enquête
par Mary E. Thompson, Joseph Sedransk, Junhan Fang et Grace Y. Yi
Résumé
Nous considérons un modèle linéaire à effets aléatoires avec ordonnée à l’origine seulement pour l’analyse de données à partir d’un plan d’échantillonnage en grappes à deux degrés. Au premier degré, un échantillon aléatoire simple de grappes est tiré et au deuxième degré, un échantillon aléatoire simple d’unités élémentaires est prélevé dans chaque grappe sélectionnée. La variable de réponse est censée se composer d’un effet aléatoire au niveau de la grappe en plus d’un terme d’erreurs indépendant dont la variance est connue. Les objets de l’inférence sont la moyenne de la variable de résultat et la variance des effets aléatoires. Dans le cas d’un plan d’échantillonnage à deux degrés plus complexe, l’utilisation d’une approche fondée sur une fonction de vraisemblance composite par paire estimée présente des propriétés attrayantes. Notre objectif est d’utiliser notre cas plus simple pour comparer les résultats de l’inférence fondée sur la vraisemblance à ceux de l’inférence fondée sur une fonction de vraisemblance composite par paire qui est considérée comme une vraisemblance approximative, et en particulier comme une composante de la vraisemblance dans l’inférence bayésienne. Afin de fournir des intervalles de crédibilité ayant une couverture fréquentiste se rapprochant des valeurs nominales, la fonction de vraisemblance composite par paire et la densité a posteriori correspondante nécessitent une modification, comme un ajustement de la courbure. Au moyen d’études par simulations, nous étudions le rendement d’un ajustement proposé dans la littératureet concluons que ce dernier fonctionne bien pour la moyenne, mais fournit des intervalles de crédibilité pour la variance des effets aléatoires présentant un sous-couverture. Nous proposons des orientations futures possibles, y compris des prolongements du cas d’un plan d’échantillonnage complexe.
Suivi de la non-réponse aux enquêtes auprès des entreprises
par Elisabeth Neusy, Jean-François Beaumont, Wesley Yung, Mike Hidiroglou et David Haziza
Résumé
Au cours des deux dernières décennies, les taux de réponse aux enquêtes ont régulièrement diminué. Dans ce contexte, il est devenu de plus en plus important pour les organismes statistiques d’élaborer et d’utiliser des méthodes permettant de réduire les effets négatifs de la non-réponse sur l’exactitude des estimations découlant d’enquêtes. Le suivi des cas de non-réponse peut être un remède efficace, même s’il exige du temps et des ressources, pour pallier le biais de non-réponse. Nous avons mené une étude par simulations à l’aide de données réelles d’enquêtes-entreprises, afin de tenter de répondre à plusieurs questions relatives au suivi de la non-réponse. Par exemple, en supposant un budget fixe de suivi de la non-réponse, quelle est la meilleure façon de sélectionner les unités non répondantes auprès desquelles effectuer un suivi ? Quel effort devons-nous consacrer à un suivi répété des non-répondants jusqu’à la réception d’une réponse ? Les non-répondants devraient-ils tous faire l’objet d’un suivi ou seulement un échantillon d’entre eux ? Dans le cas d’un suivi d’un échantillon seulement, comment sélectionner ce dernier ? Nous avons comparé les biais relatifs Monte Carlo et les racines de l’erreur quadratique moyenne relative Monte Carlo pour différents plans de sondage du suivi, tailles d’échantillon et scénarios de non-réponse. Nous avons également déterminé une expression de la taille de l’échantillon de suivi minimale nécessaire pour dépenser le budget, en moyenne, et montré que cela maximise le taux de réponse espéré. Une principale conclusion de notre expérience de simulation est que cette taille d’échantillon semble également réduire approximativement le biais et l’erreur quadratique moyenne des estimations.
Recours à une imputation multiple à classes latentes pour bâtir des tableaux de recensement de la population à partir de données issues de plusieurs sources
par Laura Boeschoten, Sander Scholtus, Jacco Daalmans, Jeroen K. Vermunt et Ton de Waal
Résumé
La méthode d’imputation multiple à classes latentes (IMCL) allie l’imputation multiple à l’analyse de classe latente afin de corriger une classification erronée dans des ensembles de données combinés. De plus, l’IMCL permet de générer un ensemble de données multi-imputé qu’il est possible d’utiliser pour l’estimation directe de différentes statistiques, faisant en sorte que l’incertitude due à une classification erronée soit intégrée au moment d’estimer la variance totale. Dans la présente étude, les auteurs ont examiné la façon dont il est possible d’ajuster la méthode d’IMCL pour l’utiliser à des fins de recensement. Ils ont plus précisément étudié le mode de prise en charge, par la méthode d’IMCL, d’un registre de population fini et complet, la façon dont la méthode permet de corriger simultanément une classification erronée de multiples variables latentes et la façon dont elle permet d’intégrer plusieurs restrictions de vérification. Une étude par simulations montre que la méthode d’IMCL peut habituellement reproduire des fréquences par cellule dans des tableaux à basse et à haute dimensionnalité, comportant de faibles quantités de biais. Il est en outre possible d’estimer adéquatement la variance, même si elle est surestimée lorsque les fréquences par cellule sont moindres.
Inférence bayésienne pour les données multinomiales issues de petits domaines et intégrant l’incertitude sur la restriction d’ordre
par Xinyu Chen et Balgobin Nandram
Résumé
Lorsque la taille de l’échantillon d’un domaine est faible, le fait d’emprunter des renseignements aux voisins est une technique d’estimation sur petits domaines qui permet d’obtenir des estimations plus fiables. L’un des modèles les plus connus en ce qui concerne l’estimation sur petits domaines est un modèle multinomial hiérarchique de Dirichlet pour les comptes multinomiaux. En raison des caractéristiques naturelles des données, il est pertinent d’émettre une hypothèse sur la restriction d’ordre unimodal dans le cas des espaces de paramètres. Dans notre application, l’indice de masse corporelle est plus susceptible de correspondre à un niveau de surpoids, ce qui signifie que la restriction d’ordre unimodal pourrait être raisonnable. La même restriction d’ordre unimodal pour tous les domaines pourrait être trop forte pour s’avérer dans certains cas. Pour accroître la souplesse, nous ajoutons une incertitude à la restriction d’ordre unimodal. Chaque domaine présentera des tendances unimodaux similaires, sans être identiques. Comme la restriction d’ordre intégrant de l’incertitude augmente la difficulté d’inférence, nous effectuons une comparaison avec les valeurs sommaires a posteriori et la pseudo-vraisemblance marginale logarithmique approximative.
Une généralisation de la pondération de probabilité inverse
par Alain Théberge
Résumé
La probabilité inverse, aussi connue en tant que l’estimateur de Horvitz-Thompson, est un outil de base de l’estimation pour une population finie. Même lorsque de l’information auxiliaire est disponible pour modéliser la variable d’intérêt, elle est utilisée pour estimer l’erreur du modèle. Dans la présente étude, l’estimateur de probabilité inverse est généralisé par l’introduction d’une matrice définie positive. L’estimateur de probabilité inverse habituel est un cas spécial de l’estimateur généralisé, dans lequel la matrice définie positive est la matrice identité. Étant donné que l’estimation par calage permet de chercher des poids qui sont proches des poids de probabilité inverse, elle peut également être généralisée pour permettre de chercher des poids qui sont proches de ceux de l’estimateur de probabilité inverse généralisé. Nous savons que le calage est optimal, car il atteint asymptotiquement la borne inférieure de Godambe-Joshi, et celle-ci a été obtenue à partir d’un modèle dépourvu de corrélation. Cette borne inférieure peut également être généralisée en vue de permettre des corrélations. En choisissant judicieusement la matrice définie positive qui généralise les estimateurs par calage, cette borne inférieure généralisée peut être atteinte de façon asymptotique. Bien souvent, il n’existe pas de formule analytique pour calculer les estimateurs généralisés. Toutefois, des exemples simples et clairs sont fournis dans la présente étude pour illustrer la façon dont les estimateurs généralisés tirent parti des corrélations. Cette simplicité s’obtient en supposant une corrélation de 1 entre certaines unités de la population. Ces estimateurs simples peuvent être utiles, même si cette corrélation est inférieure à 1. Des résultats de simulation sont utilisés pour comparer les estimateurs généralisés aux estimateurs ordinaires.
Les comportements de réponse indésirables sont-ils constants d’une enquête à l’autre ? Un examen approfondi des caractéristiques de répondants
par Frank Bais, Barry Schouten et Vera Toepoel
Résumé
Dans la présente étude, nous tentons d’établir dans quelle mesure l’âge et le niveau de scolarité des répondants peuvent être systématiquement associés à un comportement de réponse indésirable (CRI) dans un ensemble d’enquêtes. À cette fin, nous avons utilisé les données obtenues auprès d’un panel de répondants ayant participé à 10 enquêtes démographiques générales réalisées par CentERdata et le bureau central de la statistique des Pays-Bas. Nous avons utilisé une nouvelle méthode pour présenter visuellement les CRI ainsi qu’une adaptation ingénieuse d’une mesure non paramétrique de l’ampleur de l’effet. Des répartitions de la densité, que nous appelons des profils des répondants, font état de l’occurrence d’un CRI chez des répondants affichant des caractéristiques particulières. Afin de comparer ces profils du point de vue d’une occurrence potentiellement constante d’un CRI dans les enquêtes, nous avons utilisé une adaptation du delta de Cliff, qui décrit efficacement l’ampleur de l’effet. Dans les enquêtes prises globalement, la mesure d’un CRI varie selon l’âge et le niveau de scolarité. Les résultats ne montrent pas un CRI constant dans les enquêtes considérées individuellement : l’âge et le niveau de scolarité sont associés à une occurrence relativement plus élevée dans certaines enquêtes, mais relativement plus faible dans d’autres. Nous en concluons que l’occurrence d’un CRI peut dépendre davantage de l’enquête et de ses éléments que de la capacité cognitive du répondant.
Un algorithme du recuit simulé pour la stratification et la répartition simultanée de l’échantillon
par Mervyn O’Luing, Steven Prestwich et S. Armagan Tarim
Résumé
La présente étude combine le recuit simulé avec l’évaluation delta pour résoudre le problème de stratification et de répartition simultanée de l’échantillon. Dans ce problème particulier, les strates atomiques sont divisées en strates mutuellement exclusives et collectivement exhaustives. Chaque partition de strates atomiques est une solution possible au problème de stratification, dont la qualité est mesurée par son coût. Le nombre de Bell de solutions possibles est énorme, même pour un nombre modéré de strates atomiques, et une couche supplémentaire de complexité s’ajoute avec le temps d’évaluation de chaque solution. De nombreux problèmes d’optimisation combinatoire à grande échelle ne peuvent être résolus de manière optimale, car la recherche d’une solution optimale exige un temps de calcul prohibitif. Un certain nombre d’algorithmes heuristiques de recherche locale ont été conçus pour résoudre problème, mais ils peuvent rester coincés dans des minima locaux, ce qui empêche toute amélioration ultérieure. Nous ajoutons, à la suite existante d’algorithmes de recherche locale, un algorithme du recuit simulé qui permet de s’échapper des minima locaux et s’appuie sur l’évaluation delta pour exploiter la similarité entre des solutions consécutives, et ainsi réduire le temps d’évaluation. Nous avons comparé l’algorithme du recuit simulé avec deux algorithmes récents. Dans les deux cas, l’algorithme du recuit simulé a permis d’obtenir une solution de qualité comparable en beaucoup moins de temps de calcul.
Signaler un problème sur cette page
Quelque chose ne fonctionne pas? L'information n'est plus à jour? Vous ne trouvez pas ce que vous cherchez?
S'il vous plaît contactez-nous et nous informer comment nous pouvons vous aider.
- Date de modification :