Techniques d’enquête

Date de diffusion : Le 20 décembre 2018

Dans ce numéro

Chers lecteurs, chères lectrices,

C’est avec plaisir que nous avons co-édité ce numéro spécial de Techniques d’enquête. Il contient 10 articles sélectionnés parmi l’ensemble des communications présentées lors du 9e Colloque francophone sur les sondages qui s’est déroulé à Gatineau du 11 au 14 octobre 2016.

Les trois premiers articles de ce numéro discutent différents aspects de l’estimation sur petits domaines. L’article de Rao, Rubin-Bleuer et Estevao propose un estimateur de l’erreur quadratique moyenne par rapport au plan de sondage et étudie ses propriétés.  Dans leur article, Bertarelli, Ranalli, Bartolucci, D’Alo et Solari considèrent un modèle markovien à classe latente pour estimer le nombre de personnes employées et en chômage pour différentes petites régions et appliquent leur modèle sur des données de l’Enquête italienne sur la population active. Finalement, l’article de De Moliner et Goga comparent quatre méthodes d’estimation de courbes moyennes de consommation électriques pour des petits domaines.

Les trois articles suivants traitent de problèmes d’échantillonnage. Celui de Grafström et Matei introduit des méthodes de coordination dans un contexte d’échantillons spatialement équilibrés. L’article de Ida, Rivest et Daigle passent en revue deux méthodes d’échantillonnage équilibré et les comparent au moyen d’une étude par simulation. L’article de Rebecq et Merly-Alpa considèrent le problème de la répartition de la taille de l’échantillon pour des plans de sondage stratifiés avec échantillonnage aléatoire simple à l’intérieur de chaque strate. Les auteurs proposent un compromis entre la répartition optimale et la répartition proportionnelle menant à des poids faiblement dispersés.

Les quatre derniers articles de ce numéro traitent de différents aspects reliés aux méthodes d’enquête par échantillonnage. Celui de Juillard et Chauvet étudie le problème de l’estimation ponctuelle et de l’estimation de la variance en présence de non-réponse totale dans les enquêtes par panel. Dans leur article, Bosa, Godbout, Mills et Picard proposent une décomposition de la variance en présence d’imputation qui permet de quantifier l’effet de convertir un non-répondant en répondant et évaluent leur méthode au moyen d’une étude par simulation. Deroyon et Favre-Martinoz généralisent deux méthodes de détermination du seuil de winsorization au cas d’un plan de sondage poissonnien et les comparent empiriquement. Finalement, l’article de Tirari et Hdioud propose un effet de pondération dont le but est de quantifier l’impact du calage sur la précision dans une approche fondée sur le plan de sondage et le modèle.

Nous vous souhaitons une bonne lecture.

Jean-Francois Beaumont et David Haziza.
Co-rédacteurs en chef invités du numéro spécial

Articles sollicités

Mesure de l’incertitude associée aux estimateurs pour petits domaines basés sur un modèle

par J.N.K. Rao, Susana Rubin-Bleuer et Victor M. Estevao

Les domaines (ou sous-populations) pour lesquels les échantillons sont de petite taille sont appelés petits domaines. Les estimateurs directs classiques ne sont pas suffisamment précis pour ces petits domaines, en raison de la petite taille des échantillons. Or, la demande de statistiques fiables pour les petits domaines a augmenté considérablement. On utilise à l’heure actuelle des estimateurs indirects des moyennes ou des totaux de petits domaines basés sur un modèle pour résoudre les difficultés que pose l’estimation directe. Ces estimateurs reposent sur des modèles de liaison qui empruntent de l’information aux divers domaines pour accroître l’efficacité. En particulier, beaucoup d’attention a été accordée dans la littérature aux meilleurs estimateurs empiriques ou estimateurs EB (pour Empirical Best) sous des modèles de régression linéaires au niveau du domaine et au niveau de l’unité contenant des effets aléatoires de petit domaine. L’erreur quadratique moyenne (EQM) des estimateurs EB sous le modèle sert fréquemment à mesurer la variabilité des estimateurs. Les estimateurs par linéarisation, ainsi que les estimateurs jackknife et bootstrap de l’EQM sous le modèle sont d’usage très répandu. Toutefois, les organismes statistiques nationaux s’intéressent souvent à l’estimation de l’EQM des estimateurs EB sous le plan de sondage, pour cadrer avec les estimateurs classiques de l’EQM sous le plan associés aux estimateurs directs pour les grands domaines dont les tailles d’échantillon sont adéquates. Les estimateurs de l’EQM sous le plan des estimateurs EB peuvent être obtenus pour les modèles au niveau du domaine, mais ils ont tendance à être instables quand la taille de l’échantillon du domaine est petite. Des estimateurs composites de l’EQM, obtenus en prenant une somme pondérée de l’estimateur de l’EQM sous le plan et de l’estimateur de l’EQM sous le modèle, sont proposés dans le présent article. Les propriétés des estimateurs de l’EQM sous le modèle au niveau du domaine sont étudiées en examinant le biais, la racine carrée de l’erreur quadratique moyenne relative et le taux de couverture des intervalles de confiance sous le plan de sondage. Le cas d’un modèle au niveau de l’unité est également examiné sous échantillonnage aléatoire simple dans chaque domaine. Les résultats d’une étude en simulation montrent que les estimateurs composites proposés de l’EQM offrent un bon compromis pour l’estimation de l’EQM sous le plan.

Article complet Version PDF

Estimation du chômage sur petits domaines à l’aide des modèles latents de Markov

par Gaia Bertarelli, M. Giovanna Ranalli, Francesco Bartolucci, Michele D’Alò et Fabrizio Solari

En Italie, l’Institut statistique national (ISTAT) mène tous les trimestres l’enquête sur la population active (EPA) et en tire des estimations de la situation d’activité de la population à différents niveaux géographiques. Il estime en particulier le nombre de salariés et de chômeurs en s’appuyant sur cette enquête pour les zones locales de marché du travail (ZLMT). En tant que ZLMT, on compte 611 grappes infrarégionales de municipalités. Ce sont là des domaines non planifiés pour lesquels les estimations directes sont entachées de trop grandes erreurs d’échantillonnage, d’où la nécessité de recourir aux méthodes d’estimation sur petits domaines (EPD). Nous exposerons ici une nouvelle méthode EPD à niveaux de zones avec un modèle latent ou caché de Markov (MLM) comme modèle de couplage. Dans de tels modèles, la caractéristique d’intérêt et son évolution dans le temps sont représentées par un processus caché en chaîne de Markov, habituellement du premier ordre. Ainsi, les zones en question sont à même de changer leur état latent dans le temps. Nous appliquons le modèle proposé aux données trimestrielles de l’EPA de 2004 à 2014 et l’ajustons dans un cadre bayésien hiérarchique au moyen d’un échantillonneur de Gibbs à augmentation de données. Nous comparons nos estimations à celles du modèle classique de Fay-Herriot, à un modèle EPD à niveaux de zones et en séries chronologiques et enfin aux données du recensement de la population de 2011.

Article complet Version PDF

Estimation de courbes moyennes de consommation électrique pour des petits domaines à partir d’échantillons

par Anne De Moliner et Camelia Goga

De nombreuses études menées dans les différentes compagnies d’électricité à travers le monde se basent sur l’analyse de courbes de consommation électrique moyennes pour différentes sous-populations, en particulier de nature géographique. Ces courbes moyennes sont estimées à partir d’échantillons de milliers de courbes mesurées à un pas de temps fin pendant de longues périodes. L’estimation sur de petites sous-populations, aussi appelées petits domaines, est un sujet très courant en théorie des sondages.

Dans cet article, nous traitons cette problématique dans le cadre des données fonctionnelles et nous cherchons à estimer des courbes moyennes de petits domaines. Pour cela, nous proposons quatre méthodes : la régression linéaire fonctionnelle, la modélisation des scores d’une analyse en composantes principales par des modèles linéaires mixtes au niveau unité, ainsi que deux estimateurs non paramétriques basés l’un sur des arbres de régression, l’autre sur des forêts aléatoires, adaptés aux courbes. L’ensemble de ces méthodes ont été testées et comparées sur des données réelles de consommation électrique de ménages français.

Article complet Version PDF

Coordination d’échantillons spatialement équilibrés

par Anton Grafström et Alina Matei

La coordination d’échantillons vise à créer une dépendance probabiliste entre la sélection de deux ou plusieurs échantillons tirés d’une même population ou de populations qui chevauchent. La coordination positive augmente le chevauchement espéré des échantillons, tandis que la coordination négative le réduit. Il existe de nombreuses applications de la coordination d’échantillons dont les objectifs varient. Un échantillon spatialement équilibré est un échantillon bien étalé dans un espace donné. Forcer l’étalement des échantillons sélectionnés est une technique générale très efficace de réduction de la variance pour l’estimateur de Horvitz-Thompson. La méthode du pivot local et l’échantillonnage de Poisson spatialement corrélé sont deux plans généraux pour obtenir des échantillons bien étalés. Notre but est d’introduire une coordination basée sur le concept des nombres aléatoires permanents pour ces méthodes d’échantillonnage. L’objectif est de coordonner les échantillons tout en préservant l’équilibre spatial. Les méthodes proposées sont motivées par des exemples empruntés à la foresterie, aux études environnementales et à la statistique officielle.

Article complet Version PDF

Utilisation de l’échantillonnage équilibré dans les enquêtes sur les prises des pêcheurs sportifs

par Ibrahima Ousmane Ida, Louis-Paul Rivest, et Gaétan Daigle

Ces dernières années, les techniques d’échantillonnage équilibré ont suscité un regain d’intérêt. Ces techniques contraignent les estimateurs d’Horvitz-Thompson des totaux des variables auxiliaires a égaler, du moins approximativement, les totaux vrais correspondants, pour éviter la présence de mauvais échantillons. Plusieurs procédures existent pour exécuter l’échantillonnage équilibré, dont la méthode du cube, élaborée par Deville et Tillé (2004), et l’algorithme réjectif, introduit par Hájek (1964). Après un bref examen de ces méthodes d’échantillonnage, motivé par la planification d’une enquête auprès des pêcheurs sportifs, nous étudions par simulations Monte Carlo les plans de sondage produits par ces deux algorithmes d’échantillonnage.

Article complet Version PDF

Optimisation d’une répartition mixte

par Antoine Rebecq et Thomas Merly-Alpa

Cet article propose un critère de calcul du paramètre de compromis dans les répartitions dites « mixtes », c’est-à-dire qui mélangent deux répartitions classiques en théorie des sondages. Dans les enquêtes auprès des entreprises de l’Insee (Institut National de la Statistique et des Études Économiques), il est courant d’utiliser la moyenne arithmétique d’une répartition proportionnelle et d’une répartition de Neyman (correspondant à un paramètre de compromis de 0,5). Il est possible d’obtenir une valeur du paramètre de compromis aboutissant à de meilleures propriétés pour les estimateurs. Cette valeur appartient à une région qui est obtenue en résolvant un programme d’optimisation. Différentes méthodes de calcul de ce paramètre seront présentées. Une application sur des enquêtes auprès des entreprises est présentée, avec comparaison avec d’autres répartitions de compromis usuelles.

Article complet Version PDF

Estimation de la variance sous non-réponse monotone pour une enquête par panel

par Hélène Juillard et Guillaume Chauvet

Les enquêtes par panel sont souvent utilisées pour mesurer l’évolution de paramètres au cours du temps. Ces enquêtes peuvent souffrir de différentes formes de non-réponse totale, situation que l’on traite à l’heure actuelle en estimant les probabilités de réponse et en effectuant une nouvelle pondération des répondants. La présente étude porte sur l’estimation, ainsi que l’estimation de la variance en cas de non-réponse totale dans les enquêtes par panel. En étendant les travaux de Kim et Kim (2007) à plusieurs périodes, nous considérons un estimateur ajusté par un score de propension qui tient compte de la non-réponse initiale et de l’attrition, et proposons un estimateur de variance approprié. Nous étendons ensuite cet estimateur afin de couvrir la plupart des estimateurs utilisés dans les enquêtes, y compris les estimateurs calés, les estimateurs de paramètres complexes et les estimateurs longitudinaux. Les propriétés de l’estimateur de variance proposé et d’un estimateur de variance simplifié sont évaluées au moyen d’une étude en simulation. Une illustration de la méthode proposée sur des données provenant de l’enquête ELFE est également présentée.

Article complet Version PDF

Comment décomposer la variance due à la non-réponse : une méthode fondée sur l’erreur d’enquête totale

par Keven Bosa, Serge Godbout, Fraser Mills et Frédéric Picard

Lorsqu’une méthode d’imputation linéaire est utilisée pour corriger la non-réponse, et sous certaines hypothèses, on peut attribuer au niveau des unités non-répondantes la variance totale. L’imputation linéaire n’est pas aussi restrictive qu’il n’y paraît car les méthodes les plus populaires comme l’imputation par ratio; donneur; moyenne et valeur auxiliaire sont toutes des méthodes d’imputation linéaires. Le cadre théorique ainsi que l’expression donnant la décomposition de la variance due à la non-réponse au niveau de l’unité seront présentés. Des résultats par simulation seront aussi présentés. Cette décomposition peut être utilisée pour prioriser le suivi de non-réponse, prioriser les corrections manuelles ou simplement orienter l’analyse des données.

Article complet Version PDF

Comparaison des méthodes de biais conditionnel et de Kokic et Bell pour les sondages poissonniens et stratifiés

par Thomas Deroyon et Cyril Favre-Martinoz

Dans les enquêtes auprès des entreprises, il est courant de collecter des variables économiques dont la distribution est fortement asymétrique. Dans ce contexte, la winsorisation est fréquemment utilisée afin de traiter le problème des valeurs influentes. Dans le cas d’un sondage aléatoire simple stratifié, il existe deux méthodes permettant de choisir les seuils intervenant dans la winsorisation. L’article se décompose de la façon suivante. Une première partie rappelle les notations et la notion d’estimateur par winsorisation. La deuxième partie consiste à détailler les deux méthodes et à les étendre dans le cas d’un sondage poissonnien, puis à les comparer sur des jeux de données simulées et sur l’Enquête sur le Coût de la Main d’Oeuvre et la structure des salaires réalisée par l’INSEE.

Article complet Version PDF

Critère de choix entre la pondération de calage et celle de sondage

par Mohammed El Haj Tirari et Boutaina Hdioud

En présence d’information auxiliaire, la technique de calage est souvent utilisée pour améliorer la précision des estimations produites. Cependant, les pondérations par calage peuvent ne pas convenir à toutes les variables d’intérêt de l’enquête, en particulier celles qui ne sont pas liées aux variables auxiliaires utilisées dans le calage. Dans ce papier, nous proposons un critère permettant d’évaluer pour toute variable d’intérêt l’effet de l’utilisation de la pondération par calage sur la précision de l’estimation de son total. Ce critère permet donc de décider des pondérations associées à chacune des variables d’intérêt d’une enquête et de déterminer ainsi celles pour lesquelles il convient d’utiliser la pondération par calage.

Article complet Version PDF


Date de modification :