Techniques d’enquête

Date de diffusion : 7 mai 2019

Ce numéro de la revue Techniques d'enquête est une collaboration spéciale avec la Revue Internationale de Statistique en l'honneur des contributions du professeur J.N.K. Rao.

Théorie et pratiques contemporaines de l’échantillonnage d’enquêtes : une célébration des contributions de recherches de J.N.K. Rao

J.N.K. Rao est un professeur distingué de l’École de mathématiques et de statistique de l’Université Carleton, à Ottawa au Canada. Il est le principal chercheur au monde dans le domaine de la méthodologie d’enquête, et il exerce une influence déterminante dans le secteur des enquêtes par sondage utilisées par les organismes gouvernementaux et d’autres organisations et entreprises. Le professeur Rao a obtenu une maîtrise de l’Université de Bombay en 1956 et un doctorat de l’Université d’État de l’Iowa en 1961. Depuis plus de 50 ans, il est une force vive dans l’élaboration de méthodes d’échantillonnage à probabilités inégales, d’approximations sur de petits échantillons, d’analyses de données d’enquêtes complexes, d’inférences fondées sur la vraisemblance empirique, de techniques d’estimation de la variance et de méthodes de rééchantillonnage et de solutions en matière de données manquantes ayant des propriétés solides fondées sur le plan. Ses efforts continus déployés pour répondre à des besoins concrets mènent vers un autre domaine actif de sa recherche sur les estimations sur petits domaines, souligné dans son livre Small Area Estimation (1re édition en 2003 et 2e édition avec Molina en 2015) publié par Wyley.

En plus de mener des recherches d’une incidence notable, le professeur Rao jouit d’une grande influence sur les organismes statistiques officiels par sa participation aux conseils et comités consultatifs ainsi que par son rôle à titre de conseiller. Il a aussi inspiré plusieurs générations de statisticiens d’enquêtes grâce à son enseignement, son mentorat et ses collaborations de recherche. Il a notamment été le mentor de nombreux statisticiens chinois qui sont par la suite devenus de grands chercheurs au sein d’universités chinoises.

Au cours de sa longue et remarquable carrière universitaire, le professeur Rao s’est vu décerner un grand nombre de prix de reconnaissance prestigieux, y compris le Prix de la Médaille d’or de la Société statistique du Canada (1993), le prix de conférence annuel Morris Hansen (1998), le prix Waksberg (2005), le premier prix SAE (2017) ainsi que des doctorats honorifiques de l’Université de Waterloo, au Canada (2008), et de l’Université catholique du Sacré-Cœur, en Italie (2013). Il est membre de l’American Statistical Association (1964), de l’American Association for the Advancement of Science (1965) et de l’Institute of Mathematical Statistics (1972). En 1991, il a été élu fellow de la Société royale du Canada.

À l’occasion du 80e anniversaire du professeur Rao, l’Institut des mégadonnées et l’École de mathématiques et de statistique de l’Université Yunnan, en Chine, ont tenu une conférence (du 24 au 27 mai 2017) soulignant ses contributions à la recherche. Le professeur Jiahua Chen, directeur de l’Institut des mégadonnées et collaborateur en recherche de longue date du professeur Rao, était le président du comité d’organisation. La tenue de la conférence a permis de réunir un groupe de chercheurs distingués de nombreux pays et de présenter un programme scientifique de calibre mondial sur la théorie et les pratiques contemporaines de l’échantillonnage d’enquêtes.

Afin de souligner les contributions du professeur Rao, les équipes de la Revue Internationale de Statistique et de Techniques d’enquête ont décidé de collaborer et de publier des numéros spéciaux contenant des articles présentés dans le cadre de la conférence. Le numéro spécial de la Revue Internationale de Statistique présente 15 articles. Le premier article est une contribution spéciale sollicitée du professeur Rao intitulé « Ma vie hasardeuse de statisticien », dans lequel le professeur décrit brièvement des anecdotes incroyables tirées de sa vie personnelle et de son parcours dans le domaine de la recherche, tout d’abord en Inde, puis aux États-Unis et finalement, au Canada. Cet article paraît aussi dans le numéro spécial de Techniques d’enquête. Les 14 autres articles publiés dans le numéro spécial de la Revue Internationale de Statistique proviennent de tous les présentateurs pléniers ayant participé à la conférence et traitent de différents sujets qui reflètent le développement actuel de la recherche de pointe dans l’échantillonnage d’enquêtes. Le numéro spécial de Techniques d’enquête contient huit articles qui ont été choisis parmi les autres articles présentés lors de la conférence.

La publication des numéros spéciaux créés en collaboration n’aurait pas été possible sans le soutien inconditionnel des co-rédacteurs en chef de la Revue Internationale de Statistique, Ray Chambers et Nalini Ravishanker, et du rédacteur de Techniques d’enquête, Wesley Yung. Nous souhaitons aussi profiter de l’occasion pour remercier les promoteurs de la conférence de leur soutien : l’Institut canadien des sciences statistiques (INCASS), l’Association internationale des statisticiens d’enquêtes (AISE) de l’Institut international de la statistique, l’Association internationale de statistique de la Chine, l’Association internationale statistique de l’Inde, la Société statistique du Canada (SSC) et l’Université Yunnan.

Jiahua Chen, Université Yunnan et Université de la Colombie-Britannique
Changbao Wu, Université de Waterloo
Co-rédacteurs en chef invités pour le numéro spécial de la Revue Internationale de Statistique

Song Cai, Université de Carleton
Mahmoud Torabi, Université du Manitoba
Co-rédacteurs en chef invités pour le numéro spécial de Techniques d’enquête

Contribution spéciale

Ma vie hasardeuse de statisticien

par J.N.K. Rao

Dans le présent article, je tenterai de brièvement présenter par ordre chronologique quelques faits saillants de ma vie hasardeuse de statisticien, qui s’est étalée sur plus de 60 ans, de 1954 à aujourd’hui.

Article complet Version PDF

Articles sollicités

Démographie bayésienne de petits domaines

par Junni L. Zhang, John Bryant et Kirsten Nissen

On presse de plus en plus les démographes de désagréger leurs estimations et leurs prévisions selon des caractéristiques comme la région, l’ethnicité ou le revenu. Les méthodes démographiques classiques ont été conçues pour de grands échantillons et donnent de piètres résultats lorsqu’elles portent sur des données désagrégées. Les méthodes reposant sur des modèles statistiques bayésiens en bonne et due forme produisent de meilleurs résultats. Nous illustrerons notre propos par des exemples tirés d’un projet à long terme visant à la conception d’approches bayésiennes d’estimation et de prévision démographiques. Dans notre premier exemple, nous estimons les taux de mortalité désagrégés selon l’âge et le sexe pour une petite population; dans le second, nous estimons et prévoyons simultanément la prévalence de l’obésité désagrégée selon l’âge. Nous concluons en répondant à deux objections habituelles à l’utilisation de méthodes bayésiennes par les organismes statistiques.

Article complet Version PDF

Estimation sur petits domaines portant sur des chiffres pondérés d’enquête dans un modèle spatial à niveau agrégé

par Hukum Chandra, Ray Chambers et Nicola Salvati

Le prédicteur empirique dans une version au niveau du domaine du modèle linéaire généralisé mixte (MLGM) est amplement employé dans une estimation sur petits domaines (EPD) portant sur des dénombrements, mais cette méthode ne fait appel ni à la pondération d’échantillonnage ni à l’information de mise en grappes, lesquelles sont essentielles à une inférence valable avec les échantillons informatifs produits par les plans de sondage complexes d’aujourd’hui. Nous décrirons une méthode d’EPD qui intègre cette information d’échantillonnage à l’estimation de proportions ou de chiffres de petits domaines dans une version au niveau du domaine du MLGM. Nous élargissons encore notre méthode en employant une version avec dépendance spatiale du MLGM (MLGMS). Il est aussi question de l’estimation de l’erreur quadratique moyenne (EQM) pour cette méthode. Nous appliquons ensuite le traitement d’EPD à l’estimation de la fréquence de la pauvreté des ménages dans divers districts ruraux de l’État d’Uttar Pradesh en Inde, et ce, en couplant, d’une part, les données de l’enquête 2011-2012 sur les dépenses de consommation des ménages recueillies par le National Sample Survey Office (NSSO) et, d’autre part, les données du recensement de 2011 en Inde. Les résultats de cette application font voir un gain appréciable de précision avec les nouvelles méthodes comparativement aux estimations directes d’enquête.

Article complet Version PDF

Erreur de mesure dans l’estimation sur petits domaines : comparaison de modèles fonctionnels, structurels et naïfs

par William R. Bell, Hee Cheol Chung, Gauri S. Datta et Carolina Franco

L’estimation sur petits domaines à l’aide de modèles au niveau du domaine peut parfois bénéficier de covariables observées sujettes à des erreurs aléatoires, par exemple des covariables qui sont elles-mêmes des estimations tirées d’une autre enquête. Sachant les estimations des variances de ces erreurs de mesure (échantillonnage) pour chaque petit domaine, on peut tenir compte de l’incertitude de ces covariables au moyen de modèles d’erreur de mesure (par exemple Ybarra et Lohr, 2008). Deux types de modèles d’erreur de mesure au niveau du domaine ont été examinés dans les publications traitant de l’estimation sur petits domaines. Le modèle fonctionnel d’erreur de mesure suppose que les valeurs sous-jacentes réelles des covariables avec erreur de mesure sont des quantités fixes mais inconnues. Le modèle structurel d’erreur de mesure suppose que ces valeurs réelles suivent un modèle, ce qui donne un modèle multivarié pour les covariables observées avec erreur et la variable dépendante initiale. Nous comparons ces deux modèles à la solution consistant à simplement ignorer l’erreur de mesure lorsqu’elle est présente (modèle naïf), en étudiant les conséquences pour les erreurs quadratiques moyennes de prédiction de l’utilisation d’un modèle incorrect avec différentes hypothèses sous-jacentes sur le modèle vrai. Les comparaisons réalisées au moyen de formules analytiques pour les erreurs quadratiques moyennes et en supposant que les paramètres du modèle sont connus donnent des résultats surprenants. Nous illustrons également les résultats à l’aide d’un modèle ajusté aux données du programme Small Area Income and Poverty Estimates (SAIPE, Estimations sur petits domaines du revenu et de la pauvreté) du U.S. Census Bureau.

Article complet Version PDF

Estimation de quantiles sur petits domaines à l’aide de la régression spline et de la vraisemblance empirique

par Zhanshou Chen, Jiahua Chen et Qiong Zhang

Le présent document étudie l’estimation de quantiles sur petits domaines selon un modèle de régression non paramétrique à erreurs emboîtées au niveau de l’unité. Nous supposons que les distributions des erreurs spécifiques sur petits domaines satisfont un modèle du rapport de densité semi-paramétrique. Nous ajustons le modèle non paramétrique à l’aide de la méthode par régression spline pénalisé d’Opsomer, Claeskens, Ranalli, Kauermann et Breidt (2008). Nous appliquons ensuite la vraisemblance empirique pour estimer les paramètres dans le modèle du rapport de densité à partir des résidus. Cela donne des estimations propres au domaine naturelles des distributions des erreurs. Puis, nous employons une méthode des noyaux pour obtenir des estimations lissées des distributions des erreurs. Ces estimations sont alors utilisées pour faire une estimation de quantiles dans deux situations : dans l’une d’elles, nous ne connaissons que les moyennes de puissances des covariables au niveau de la population; dans l’autre, nous connaissons les valeurs des covariables de toutes les unités d’échantillonnage dans la population. Selon des expériences de simulation, les méthodes proposées pour l’estimation des quantiles sur petits domaines fonctionnent bien pour des quantiles situés près de la médiane dans le premier cas et pour un large éventail de quantiles dans le second. Un estimateur de l’erreur quadratique moyenne bootstrap des estimateurs proposés est également examiné. Un exemple empirique fondé sur les données sur les revenus des Canadiens en fait partie.

Article complet Version PDF

Élaboration d’un système d’estimation sur petits domaines à Statistique Canada

par Michel A. Hidiroglou, Jean-François Beaumont et Wesley Yung

La demande d’estimations sur petits domaines de la part des utilisateurs des données de Statistique Canada augmente constamment depuis quelques années. Dans le présent document, nous résumons les procédures qui ont été intégrées dans un système de production en SAS permettant d’obtenir des estimations sur petits domaines officielles à Statistique Canada. Ce système comprend : des procédures fondées sur des modèles au niveau de l’unité ou du domaine; l’intégration du plan d’échantillonnage; la capacité de lisser la variance sous le plan pour chaque petit domaine si un modèle au niveau du domaine est utilisé; la capacité de vérifier que les estimations sur petits domaines équivalent à des estimations fiables de niveau plus élevé; et l’élaboration d’outils de diagnostic pour tester la pertinence du modèle. Le système de production a servi à produire des estimations sur petits domaines à titre expérimental pour plusieurs enquêtes de Statistique Canada, notamment : l’estimation des caractéristiques de la santé, l’estimation du sous-dénombrement au recensement, l’estimation des ventes des fabricants et l’estimation des taux de chômage et des chiffres d’emploi pour l’Enquête sur la population active. Certains des diagnostics instaurés dans le système sont illustrés à l’aide des données de l’Enquête sur la population active ainsi que des données administratives auxiliaires.

Article complet Version PDF

Régression quantile censurée pondérée

par Chithran Vasudevan, Asokan Mulayath Variyath et Zhaozhi Fan

Dans le présent document, nous utilisons de l’information auxiliaire pour améliorer l’efficacité des estimations des paramètres de la régression quantile censurée. En utilisant l’information présentée dans des études antérieures, nous avons calculé des probabilités au moyen de la vraisemblance empirique comme poids et avons proposé la régression quantile censurée pondérée. Les propriétés théoriques de la méthode proposée sont obtenues. Nos études par simulation démontrent que la méthode que nous proposons présente des avantages comparativement à la régression quantile censurée standard.

Article complet Version PDF

Inférence fondée sur la vraisemblance empirique pour les données d’enquête manquantes selon un échantillonnage à probabilités inégales

par Song Cai et J.N.K. Rao

La non-réponse partielle se produit fréquemment dans les enquêtes-échantillons. On utilise couramment l’imputation hot deck pour remplacer les valeurs des items manquants dans des groupes homogènes appelés classes d’imputation. Nous proposons une procédure d’imputation hot deck fractionnaire et une vraisemblance empirique associée pour l’inférence sur la moyenne de population d’une fonction d’une variable d’intérêt présentant des données manquantes selon un échantillonnage avec probabilité proportionnelle à la taille avec fractions d’échantillonnage négligeables. Nous calculons les distributions limites de l’estimateur du maximum de vraisemblance empirique et du rapport de vraisemblance empirique, et nous proposons deux procédures bootstrap asymptotiques valides afin de construire des intervalles de confiance pour la moyenne de population. Les études par simulations montrent que les procédures bootstrap proposées donnent de meilleurs résultats que les procédures bootstrap habituelles, qui se révèlent asymptotiquement incorrectes quand le nombre de tirages aléatoires de l’imputation fractionnaire est fixe. De plus, la procédure bootstrap proposée, fondée sur le rapport de vraisemblance empirique, semble donner des résultats significativement meilleurs que la méthode fondée sur la distribution limite de l’estimateur du maximum de vraisemblance empirique en cas de grande variation des probabilités d’inclusion ou d’échantillon de petite taille.

Article complet Version PDF

Amélioration de l’estimateur Horvitz-Thompson dans l’échantillonnage d’enquête

par Xianpeng Zong, Rong Zhu et Guohua Zou

L’estimateur Horvitz-Thompson (HT) est largement utilisé dans l’échantillonnage d’enquête. Cependant, la variance de l’estimateur HT devient importante lorsque les probabilités d’inclusion sont très hétérogènes. Pour surmonter cette lacune, nous proposons dans le présent document une méthode à seuil ferme pour les probabilités d’inclusion du premier degré. Plus précisément, nous choisissons soigneusement une valeur seuil, puis nous remplaçons les probabilités d’inclusion plus petites que le seuil par le seuil. Grâce à cette stratégie de réduction, nous construisons un nouvel estimateur appelé estimateur amélioré de Horvitz-Thompson (HTA) pour estimer le total de la population. L’estimateur HTA augmente beaucoup la précision de l’estimation, mais il apporte un biais relativement faible. Nous calculons l’erreur quadratique moyenne de l’estimateur HTA et son estimateur sans biais, et comparons théoriquement l’estimateur HTA avec l’estimateur HT. Nous appliquons également notre idée pour construire un estimateur de ratio amélioré. Nous analysons numériquement les ensembles de données simulées et réelles pour illustrer que les estimateurs proposés sont plus efficaces et robustes que les estimateurs classiques.

Article complet Version PDF


Date de modification :