Techniques d’enquête

Date de diffusion : Le 30 juin 2023

La revue Techniques d’enquête volume 49, numéro 1 (juin 2023) comprend les onze articles suivants :

Article spécial à la mémoire du Professeur Chris Skinner – Gagnant du Prix Waksberg 2019

Hommage à Chris Skinner, collègue et ami

par Danny Pfeffermann

Résumé

Ce bref hommage vise à souligner les principales réalisations scientifiques de Chris Skinner.

Version HTML Version PDF

Contrôle de la divulgation statistique et avancées dans la protection officielle des renseignements : à la mémoire de Chris Skinner

par Natalie Shlomo

Résumé

Je donnerai un aperçu de l’évolution de la recherche sur le contrôle de la divulgation statistique (CDS) dans les dernières décennies et de son adaptation à la révolution des données à l’aide de définitions plus officielles de la confidentialité. Je soulignerai les nombreux apports de Chris Skinner aux domaines de recherche sur le CDS. Je passerai en revue ses recherches de pionnier en commençant par ses travaux des années 1990 sur la diffusion de microdonnées d’échantillon du recensement au Royaume-Uni. De ces recherches sont nées diverses études où l’on a mesuré le risque de réidentification dans les microdonnées d’enquête au moyen de modèles probabilistes. Je porterai principalement mon attention à traiter d’autres aspects des recherches en CDS de Chris. Chris Skinner a reçu le prix Waksberg en 2019 et n’a malheureusement jamais eu l’occasion de présenter son discours Waksberg au Symposium international sur les questions de méthodologie de Statistique Canada. Le présent article suivra le canevas préparé par Chris en prévision de cette allocution.

Version HTML Version PDF

Commentaires à propos de l’article « Contrôle de la divulgation statistique et avancées dans la protection officielle des renseignements : à la mémoire de Chris Skinner »

par J.N.K. Rao

Résumé

Mes commentaires sont répartis en trois volets : 1) bref compte rendu de mon association professionnelle avec Chris Skinner, 2) observations sur les réalisations de Skinner en matière de contrôle de la divulgation statistique et 3) propos sur la production d’inférences à partir de données d’enquête masquées.

Version HTML Version PDF

Commentaires à propos de l’article « Contrôle de la divulgation statistique et avancées dans la protection officielle des renseignements : à la mémoire de Chris Skinner » : Note sur le lissage des poids dans l’échantillonnage

par Jae Kwang Kim et HaiYing Wang

Résumé

Le lissage des poids est une technique utile pour améliorer l’efficacité des estimateurs fondés sur le plan exposés au risque de biais en raison d’une spécification erronée du modèle. Dans le prolongement du travail de Kim et Skinner (2013), nous proposons d’employer le lissage des poids pour construire la vraisemblance conditionnelle pour une inférence analytique efficace dans le cadre d’un échantillonnage informatif. La distribution bêta prime peut être utilisée pour construire un modèle de paramètres pour les poids dans l’échantillon. Un test du score est développé pour tester les erreurs de spécifications dans le modèle de pondération. Un estimateur de prétest s’appuyant sur le test du score peut être élaboré naturellement. L’estimateur de prétest est presque exempt de biais et peut être plus efficace que l’estimateur fondé sur le plan lorsque le modèle de pondération est correctement spécifié ou que les poids d’origine sont très variables. Une étude par simulation limitée est présentée pour étudier le rendement des méthodes proposées.

Version HTML Version PDF

Articles réguliers

Statistiques officielles fondées sur l’Enquête sur la santé aux Pays-Bas pendant la pandémie de COVID-19

par Jan van den Brakel et Marc Smeets

Résumé

L’Enquête sur la santé aux Pays-Bas (ESP), menée par Statistique Pays-Bas, est conçue pour produire des estimations directes fiables selon une fréquence annuelle. La collecte des données est fondée sur une combinaison d’interviews Web et d’interviews sur place. En raison des mesures de confinement prises pendant la pandémie de COVID-19, peu ou pas d’interviews sur place ont pu être effectuées, ce qui a entraîné des variations soudaines d’effets de mesure et de sélection sur les résultats de l’enquête. De plus, la production de données annuelles sur l’effet de la COVID-19 sur des thèmes liés à la santé ayant un délai d’un an nuit à la pertinence de l’enquête. La taille de l’échantillon de l’ESP ne permet pas d’obtenir des résultats pour des périodes de référence plus courtes. Dans les deux cas, le problème est résolu en élaborant un modèle de séries chronologiques structurel (MSCS) bivarié en vue d’estimer les résultats trimestriels pour huit indicateurs clés de la santé. Ce modèle combine deux séries d’estimations directes, une série fondée sur des réponses complètes et une série fondée sur des réponses fournies par Internet seulement et permet d’obtenir des prévisions fondées sur le modèle pour les indicateurs qui sont corrigés en raison des pertes subies par l’arrêt ou la diminution des interviews sur place pendant les périodes de confinement. Le modèle est également utilisé comme une forme d’estimation sur petits domaines et tire des renseignements des échantillons des périodes de référence précédentes. Des statistiques à jour et pertinentes décrivant les effets de la pandémie de COVID-19 sur la santé aux Pays-Bas sont ainsi publiées. Dans le présent article, la méthode fondée sur le MSCS bivarié est comparée à deux autres méthodes. La première emploie un MSCS univarié où aucune correction n’est apportée aux estimations en raison des pertes subies par l’arrêt ou la diminution des interviews sur place. La deuxième utilise un MSCS univarié doté également d’une variable d’intervention modélisant l’effet de cette perte de réponses en raison de l’arrêt ou de la diminution des interviews sur place pendant le confinement.

Version HTML Version PDF

Combinaison de données provenant d’enquêtes et de sources connexes

par Dexter Cahoy et Joseph Sedransk

Résumé

Pour accroître la précision des inférences et réduire les coûts, la combinaison de données provenant de plusieurs sources comme les enquêtes-échantillon et les données administratives suscite beaucoup d’intérêt. Une méthodologie appropriée est requise afin de produire des inférences satisfaisantes, puisque les populations cibles et les méthodes d’acquisition de données peuvent être assez différentes. Pour améliorer les inférences, nous utilisons une méthodologie qui a une structure plus générale que celles de la pratique actuelle. Nous commençons par le cas où l’analyste ne dispose que de statistiques sommaires provenant de chacune des sources. Dans la méthode principale, la combinaison incertaine, on suppose que l’analyste peut considérer une source, l’enquête r, comme étant de loin le meilleur choix pour l’inférence. Cette méthode part des données de l’enquête r et ajoute les données provenant des sources tierces, pour former des grappes qui comprennent l’enquête r. Nous considérons également les mélanges selon le processus de Dirichlet, l’une des méthodes bayésiennes non paramétriques les plus populaires. Nous utilisons des expressions analytiques et les résultats d’études numériques pour montrer les propriétés de la méthodologie.

Version HTML Version PDF

Intégration des données d’enquête pour l’analyse de régression au moyen du calage assisté par un modèle

par Zhonglei Wang, Hang J. Kim et Jae Kwang Kim

Résumé

Nous envisageons ici l’analyse de régression dans le contexte de l’intégration de données. Pour combiner des renseignements partiels de sources externes, nous utilisons l’idée de calage assisté par un modèle qui introduit un modèle « de travail » réduit fondé sur les covariables observées. Ce modèle de travail réduit n’est pas nécessairement spécifié correctement, mais il peut être un outil utile pour intégrer les renseignements partiels provenant de données externes. La mise en œuvre en tant que telle est fondée sur une application nouvelle de la projection d’information et de la pondération par calage du modèle. La méthode proposée est particulièrement intéressante pour combiner des renseignements de plusieurs sources présentant différentes tendances en matière de données manquantes. La méthode est appliquée à un exemple de données réelles combinant les données d’enquête de l'enquête KNHANES (enquête nationale coréenne sur la santé et la nutrition) et les mégadonnées du NHISS (service national coréen de partage de l’assurance maladie).

Version HTML Version PDF

Tests unilatéraux des moyennes de domaine de population dans les enquêtes

par Xiaoming Xu et Mary C. Meyer

Résumé

Les travaux récents sur l’estimation pour domaine d’enquête permettent d’estimer les moyennes de domaine de population selon des hypothèses a priori exprimées dans des termes de contraintes d’inégalité linéaires. Par exemple, on pourrait savoir que les moyennes de population sont non décroissantes conformément aux domaines ordonnés. Il a été montré que l’imposition de contraintes donne des estimateurs ayant une plus petite variance et des intervalles de confiance plus étroits. Dans le présent article, nous considérons un test formel de l’hypothèse nulle selon laquelle toutes les contraintes sont obligatoires, par opposition à une hypothèse alternative où au moins une contrainte n’est pas obligatoire. Le test de moyennes de domaine constantes comparativement à des moyennes de domaine croissantes est un cas particulier. La puissance du test est nettement meilleure que celle du test comportant la même hypothèse nulle et une hypothèse alternative sans contrainte. Le nouveau test est utilisé sur les données de la National Survey of College Graduates des États-Unis (NSCG, Enquête nationale sur les diplômés des collèges), pour montrer que les salaires sont positivement liés au niveau de scolarité du père du sujet, dans tous les domaines d’études et sur plusieurs années de cohortes.

Version HTML Version PDF

Extension de la méthode de partage des poids lors de l’utilisation d’une base de sondage continue

par Guillaume Chauvet, Olivier Bouriaud et Philippe Brion

Résumé

La définition des unités statistiques est une question récurrente dans le domaine des enquêtes-échantillons. En effet, les populations sondées ne comportent pas toutes une base de sondage déjà disponible. Dans certaines populations, les unités échantillonnées sont différentes des unités d’observation, et la production d’estimations concernant la population d’intérêt soulève des questions complexes qu’il est possible de traiter en utilisant la méthode de partage des poids (Deville et Lavallée, 2006). Les deux populations prises en considération dans cette méthode sont toutefois discrètes. Dans certains champs d’études, la population échantillonnée est continue : c’est, par exemple, le cas des inventaires forestiers dans lesquels, souvent, les arbres sondés sont ceux situés sur des parcelles de terrain dont les centres sont des points tirés aléatoirement dans un secteur donné. La production d’estimations statistiques à partir de l’échantillon d’arbres sondés présente des difficultés d’ordre méthodologique, tout comme les calculs de variance qui y sont associés. Le présent article a pour but d’étendre la méthode de partage des poids au cas de populations continues (population échantillonnée) et de populations discrètes (population sondée), à partir de l’extension proposée par Cordy (1993) de l’estimateur de Horvitz-Thompson pour procéder à un tirage de points dans un univers continu.

Version HTML Version PDF

Modélisation de la variation temporelle des taux de réponse aux enquêtes : approche bayésienne s’appliquant à l’enquête sur la santé réalisée aux Pays-Bas

par Shiya Wu, Harm-Jan Boonstra, Mirjam Moerbeek et Barry Schouten

Résumé

Des estimations précises et sans biais des propensions à répondre (PR) jouent un rôle décisif dans l’observation, l’analyse et l’adaptation d’une collecte de données. Dans un environnement d’enquête fixe, ces paramètres sont stables et leurs estimations finissent par converger lorsque suffisamment de données historiques sont recueillies. Dans les pratiques d’enquête, toutefois, les taux de réponse varient progressivement dans le temps. Comprendre la variation temporelle de la prédiction des taux de réponse est essentiel lors de l’adaptation d’un plan d’enquête. La présente étude met en lumière la variation temporelle des taux de réponse au moyen de modèles hiérarchiques (à plusieurs niveaux) de séries chronologiques. Il est possible de générer des prédictions fiables en apprenant à partir de séries chronologiques historiques et de mises à jour avec de nouvelles données dans un cadre bayésien. Pour illustrer une étude de cas, nous nous concentrons sur des taux de réponse en ligne dans le cadre de l’enquête sur la santé réalisée aux Pays-Bas de 2014 à 2019.

Version HTML Version PDF

Échantillonnage avec probabilités de tirage adaptatives

par Bardia Panahbehagh, Yves Tillé et Azad Khanzadi

Résumé

Le présent article présente des méthodes d’échantillonnage adaptatif proportionnel à la taille, avec et sans remise. Des estimateurs sans biais y sont élaborés pour ces méthodes et leurs propriétés sont étudiées. Dans les deux versions, les probabilités de tirage sont adaptées pendant le processus d’échantillonnage à partir des observations déjà sélectionnées. À cette fin, dans la méthode avec remise, après chaque tirage et chaque observation de la variable d’intérêt, le vecteur de la variable auxiliaire sera mis à jour au moyen des valeurs observées de la variable d’intérêt pour que soit estimée la probabilité de sélection exacte proportionnelle à la taille. Dans la méthode sans remise, tout d’abord, à l’aide d’un échantillon initial, nous modélisons la relation entre la variable d’intérêt et la variable auxiliaire. Puis, en utilisant cette relation, nous estimons les unités de population inconnues (non observées). Enfin, à partir de ces unités de population estimées, nous sélectionnons un nouvel échantillon proportionnel à la taille sans remise. Ces méthodes peuvent améliorer considérablement l’efficacité des plans, non seulement dans le cas d’une relation linéaire positive, mais aussi dans le cas d’une relation non linéaire ou d’une relation linéaire négative entre variables. Nous étudions l’efficacité des plans au moyen de simulations et d’études de cas réels sur les plantes médicinales ainsi qu’au moyen de données sociales et économiques.

Version HTML Version PDF


Date de modification :