Pondération et estimation

Aller au contenu principal
Aller au pied de page

Sélection de la langue

English

Recherche et menus

Recherche et menus

Rechercher

Passer au filtres. Voir les résultats.

Résultats

Tout (55)

Tout (55) (10 à 20 de 55 résultats)

11. Le principe de l’information manquante ‒ Un paradigme d’analyse de données désordonnées d’enquête par sondage
Articles et rapports : 12-001-X202300200018
Description : En tant qu’instrument d’élaboration et d’évaluation des politiques et de recherche scientifique, sociale et économique, les enquêtes par sondage sont employées depuis plus d’un siècle. Au cours de cette période, elles ont surtout servi à recueillir des données à des fins de dénombrement. L’estimation de leurs caractéristiques a normalement reposé sur la pondération et l’échantillonnage répété ou sur une inférence fondée sur le plan de sondage. Les données-échantillons ont toutefois aussi permis de modéliser les processus inobservables qui sont source de données de population finie. Ce genre d’utilisation qualifié d’analytique consiste souvent à intégrer les données-échantillons à des données de sources secondaires.
Dans ce cas, des solutions de rechange à l’inférence, tirant leur inspiration du grand courant de la modélisation statistique, ont largement été mises de l’avant. Le but principal était alors de permettre un échantillonnage informatif. Les enquêtes modernes par sondage visent cependant davantage les situations où les données-échantillons font en réalité partie d’un ensemble plus complexe de sources de données, toutes contenant des informations pertinentes sur le processus d’intérêt. Lorsqu’on privilégie une méthode efficace de modélisation comme celle du maximum de vraisemblance, la question consiste alors à déterminer les modifications qui devraient être apportées en fonction tant de plans de sondage complexes que de sources multiples de données. C’est là que l’emploi du principe de l’information manquante trace nettement la voie à suivre.
Le présent document permettra de faire le point sur la façon dont ce principe a servi à résoudre les problèmes d’analyse de données « désordonnées » liés à l’échantillonnage. Il sera aussi question d’un scénario qui est une conséquence de la croissance rapide des sources de données auxiliaires aux fins de l’analyse des données d’enquête. C’est le cas où les enregistrements échantillonnés d’une source ou d’un registre accessible sont couplés aux enregistrements d’une autre source moins accessible, avec des valeurs de la variable réponse d’intérêt tirées de cette seconde source et où un résultat clé obtenu consiste en estimations sur petits domaines de cette variable de réponse pour des domaines définis sur la première source.
Date de diffusion : 2024-01-03
12. Cartographie de l’activité de production au Yukon : estimations expérimentales du produit intérieur brut en fonction d’un carré de quadrillage
Articles et rapports : 11-633-X2023003
Description : Ce document couvre les travaux universitaires et les stratégies d’estimation utilisées par les organismes nationaux de statistique. Il aborde la question de la production d’estimations géographiques détaillées au niveau du quadrillage pour le Canada en étudiant la mesure du produit intérieur brut infraprovincial et infraterritorial à l’aide du Yukon comme scénario d’essai.
Date de diffusion : 2023-12-15
13. Rapport technique sur l'échantillonnage et la pondération, Recensement de la population
Enquêtes et programmes statistiques — Documentation : 98-306-X
Description :
Ce rapport donne une description des méthodes d'échantillonnage, de pondération et d'estimation utilisées pour le Recensement de la population. Il fournit les justifications opérationnelles et théoriques et présente les résultats des évaluations de ces méthodes.
Date de diffusion : 2023-10-04
14. Combinaison de données provenant d’enquêtes et de sources connexes
Articles et rapports : 12-001-X202300100003
Description : Pour accroître la précision des inférences et réduire les coûts, la combinaison de données provenant de plusieurs sources comme les enquêtes-échantillon et les données administratives suscite beaucoup d’intérêt. Une méthodologie appropriée est requise afin de produire des inférences satisfaisantes, puisque les populations cibles et les méthodes d’acquisition de données peuvent être assez différentes. Pour améliorer les inférences, nous utilisons une méthodologie qui a une structure plus générale que celles de la pratique actuelle. Nous commençons par le cas où l’analyste ne dispose que de statistiques sommaires provenant de chacune des sources. Dans la méthode principale, la combinaison incertaine, on suppose que l’analyste peut considérer une source, l’enquête r, comme étant de loin le meilleur choix pour l’inférence. Cette méthode part des données de l’enquête r et ajoute les données provenant des sources tierces, pour former des grappes qui comprennent l’enquête r. Nous considérons également les mélanges selon le processus de Dirichlet, l’une des méthodes bayésiennes non paramétriques les plus populaires. Nous utilisons des expressions analytiques et les résultats d’études numériques pour montrer les propriétés de la méthodologie.
Date de diffusion : 2023-06-30
15. Statistiques officielles fondées sur l’Enquête sur la santé aux Pays-Bas pendant la pandémie de COVID-19
Articles et rapports : 12-001-X202300100004
Description : L’Enquête sur la santé aux Pays-Bas (ESP), menée par Statistique Pays-Bas, est conçue pour produire des estimations directes fiables selon une fréquence annuelle. La collecte des données est fondée sur une combinaison d’interviews Web et d’interviews sur place. En raison des mesures de confinement prises pendant la pandémie de COVID-19, peu ou pas d’interviews sur place ont pu être effectuées, ce qui a entraîné des variations soudaines d’effets de mesure et de sélection sur les résultats de l’enquête. De plus, la production de données annuelles sur l’effet de la COVID-19 sur des thèmes liés à la santé ayant un délai d’un an nuit à la pertinence de l’enquête. La taille de l’échantillon de l’ESP ne permet pas d’obtenir des résultats pour des périodes de référence plus courtes. Dans les deux cas, le problème est résolu en élaborant un modèle de séries chronologiques structurel (MSCS) bivarié en vue d’estimer les résultats trimestriels pour huit indicateurs clés de la santé. Ce modèle combine deux séries d’estimations directes, une série fondée sur des réponses complètes et une série fondée sur des réponses fournies par Internet seulement et permet d’obtenir des prévisions fondées sur le modèle pour les indicateurs qui sont corrigés en raison des pertes subies par l’arrêt ou la diminution des interviews sur place pendant les périodes de confinement. Le modèle est également utilisé comme une forme d’estimation sur petits domaines et tire des renseignements des échantillons des périodes de référence précédentes. Des statistiques à jour et pertinentes décrivant les effets de la pandémie de COVID-19 sur la santé aux Pays-Bas sont ainsi publiées. Dans le présent article, la méthode fondée sur le MSCS bivarié est comparée à deux autres méthodes. La première emploie un MSCS univarié où aucune correction n’est apportée aux estimations en raison des pertes subies par l’arrêt ou la diminution des interviews sur place. La deuxième utilise un MSCS univarié doté également d’une variable d’intervention modélisant l’effet de cette perte de réponses en raison de l’arrêt ou de la diminution des interviews sur place pendant le confinement.
Date de diffusion : 2023-06-30
16. Commentaires de Jae Kwang Kim et HaiYing Wang à propos de l’article « Contrôle de la divulgation statistique et avancées dans la protection officielle des renseignements : à la mémoire de Chris Skinner » : Note sur le lissage des poids dans l’échantillonnage
Articles et rapports : 12-001-X202300100005
Description : Le lissage des poids est une technique utile pour améliorer l’efficacité des estimateurs fondés sur le plan exposés au risque de biais en raison d’une spécification erronée du modèle. Dans le prolongement du travail de Kim et Skinner (2013), nous proposons d’employer le lissage des poids pour construire la vraisemblance conditionnelle pour une inférence analytique efficace dans le cadre d’un échantillonnage informatif. La distribution bêta prime peut être utilisée pour construire un modèle de paramètres pour les poids dans l’échantillon. Un test du score est développé pour tester les erreurs de spécifications dans le modèle de pondération. Un estimateur de prétest s’appuyant sur le test du score peut être élaboré naturellement. L’estimateur de prétest est presque exempt de biais et peut être plus efficace que l’estimateur fondé sur le plan lorsque le modèle de pondération est correctement spécifié ou que les poids d’origine sont très variables. Une étude par simulation limitée est présentée pour étudier le rendement des méthodes proposées.
Date de diffusion : 2023-06-30
17. Extension de la méthode de partage des poids lors de l’utilisation d’une base de sondage continue
Articles et rapports : 12-001-X202300100011
Description : La définition des unités statistiques est une question récurrente dans le domaine des enquêtes-échantillons. En effet, les populations sondées ne comportent pas toutes une base de sondage déjà disponible. Dans certaines populations, les unités échantillonnées sont différentes des unités d’observation, et la production d’estimations concernant la population d’intérêt soulève des questions complexes qu’il est possible de traiter en utilisant la méthode de partage des poids (Deville et Lavallée, 2006). Les deux populations prises en considération dans cette méthode sont toutefois discrètes. Dans certains champs d’études, la population échantillonnée est continue : c’est, par exemple, le cas des inventaires forestiers dans lesquels, souvent, les arbres sondés sont ceux situés sur des parcelles de terrain dont les centres sont des points tirés aléatoirement dans un secteur donné. La production d’estimations statistiques à partir de l’échantillon d’arbres sondés présente des difficultés d’ordre méthodologique, tout comme les calculs de variance qui y sont associés. Le présent article a pour but d’étendre la méthode de partage des poids au cas de populations continues (population échantillonnée) et de populations discrètes (population sondée), à partir de l’extension proposée par Cordy (1993) de l’estimateur de Horvitz-Thompson pour procéder à un tirage de points dans un univers continu.
Date de diffusion : 2023-06-30
18. Modélisation de séries chronologiques multiniveaux de la couverture des soins prénataux au Bangladesh à des niveaux administratifs désagrégés
Articles et rapports : 12-001-X202200200010
Description :
Des modèles de séries chronologiques multiniveaux sont appliqués pour estimer les tendances de séries chronologiques de la couverture des soins prénataux à plusieurs niveaux administratifs du Bangladesh, d’après les cycles répétés de la Bangladesh Demographic and Health Survey (BDHS, Enquête démographique et sur la santé du Bangladesh) pendant la période allant de 1994 à 2014. Les modèles de séries chronologiques multiniveaux sont exprimés dans un cadre bayésien hiérarchique et ajustés au moyen de simulations Monte Carlo par chaînes de Markov. Les modèles tiennent compte des intervalles variables de trois ou quatre ans entre les cycles de la BDHS et fournissent aussi des prédictions pour les années intermédiaires. Il est proposé d’appliquer les modèles transversaux de Fay-Herriot aux années d’enquête séparément au niveau des districts, soit l’échelle régionale la plus détaillée. Les séries chronologiques de ces prédictions pour petits domaines au niveau des districts et leurs matrices de variance-covariance sont utilisées comme séries de données d’entrée pour les modèles de séries chronologiques multiniveaux. Dans ces modèles, on examine les corrélations spatiales entre les districts, la pente et l’ordonnée à l’origine aléatoires au niveau des districts, ainsi que les différents modèles de tendance au niveau des districts et aux niveaux régionaux plus élevés pour l’emprunt d’information dans le temps et l’espace. Les estimations des tendances au niveau des districts sont obtenues directement à partir des résultats des modèles, tandis que les estimations des tendances à des échelons régionaux et nationaux plus élevés sont obtenues par agrégation des prédictions au niveau des districts, ce qui donne un ensemble cohérent d’estimations des tendances sur le plan numérique.

Date de diffusion : 2022-12-15
19. Estimation linéaire optimale dans un échantillonnage à deux phases
Articles et rapports : 12-001-X202200200011
Description :
L’échantillonnage à deux phases est un plan de sondage rentable couramment utilisé dans les enquêtes. Le présent article propose une méthode optimale d’estimation linéaire des totaux dans un échantillonnage à deux phases, qui exploite au mieux l’information auxiliaire de l’enquête. Tout d’abord, on calcule formellement un meilleur estimateur linéaire sans biais (MELSB) de tout total sous une forme analytique, et on démontre qu’il s’agit d’un estimateur par calage. Ensuite, la reformulation appropriée du MELSB et l’estimation de ses coefficients inconnus permettent de construire un estimateur par la régression « optimal », qui peut également être obtenu au moyen d’une procédure de calage adéquate. Ce calage présente une caractéristique distinctive : l’alignement des estimations des deux phases dans une procédure en une étape comprenant les échantillons combinés de la première et de la deuxième phase. L’estimation optimale est faisable pour certains plans à deux phases souvent employés dans les enquêtes à grande échelle. Pour les plans généraux à deux phases, une autre procédure de calage donne un estimateur par la régression généralisée comme estimateur optimal approximatif. L’approche générale proposée d’estimation optimale permet d’utiliser le plus efficacement possible l’information auxiliaire disponible dans toute enquête à deux phases. Les avantages de cette méthode par rapport aux méthodes existantes d’estimation dans un échantillonnage à deux phases sont démontrés théoriquement et au moyen d’une étude par simulations.
Date de diffusion : 2022-12-15
20. Modèles spatiaux bayésiens pour l’estimation des moyennes pour petites régions échantillonnées et non échantillonnées
Articles et rapports : 12-001-X202200200012
Description :
Dans de nombreuses applications, les moyennes de population des petites régions géographiquement adjacentes présentent une variation spatiale. Si les variables auxiliaires disponibles ne tiennent pas suffisamment compte de la configuration spatiale, la variation résiduelle sera incluse dans les effets aléatoires. Par conséquent, l’hypothèse de distribution indépendante et identique sur les effets aléatoires du modèle Fay-Herriot échouera. De plus, des ressources limitées empêchent souvent l’inclusion de nombreuses sous-populations dans l’échantillon; il en résulte de petites régions non échantillonnées. Le problème peut être exacerbé au moment de prédire les moyennes de petites régions non échantillonnées à l’aide du modèle de Fay-Herriot ci-dessus, car les prévisions seront faites uniquement en fonction des variables auxiliaires. Pour remédier à ce problème, nous considérons les modèles spatiaux bayésiens à effets aléatoires qui peuvent prendre en compte de multiples régions non échantillonnées. Dans des conditions légères, nous déterminons si les distributions a posteriori de divers modèles spatiaux sont adaptées à une catégorie utile de densités a priori incompatibles avec les paramètres du modèle. L’efficacité de ces modèles spatiaux est évaluée à partir de données simulées et réelles. Plus précisément, nous examinons les prévisions du revenu médian des familles de quatre personnes à l’échelle de l’État fondées sur la « Current Population Survey » (enquête sur l’état de la population) de 1990 et le « Census for the United States of America » (recensement mené aux États-Unis d’Amérique) de 1980.

Date de diffusion : 2022-12-15

Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (50)

Analyses (50) (20 à 30 de 50 résultats)

21. Étude : Attrition dans l'étude longitudinale et internationale des adultes, vague 1 (2012) à vague 4 (2018)
Stats en bref : 11-001-X202231822683
Description : Communiqué publié dans Le Quotidien – Bulletin de diffusion officielle de Statistique Canada
Date de diffusion : 2022-11-14
22. Attrition dans l'Étude longitudinale et internationale des adultes, de la vague 1 (2012) à la vague 4 (2018)
Articles et rapports : 89-648-X2022001
Description :
Le présent rapport examine l'ampleur et la nature des problèmes d'attrition touchant l'Étude longitudinale et internationale des adultes (l'ELIA), et explore l'utilisation d'une stratégie d'ajustement et de calage des poids pour la non-réponse qui pourrait atténuer les effets de l'attrition sur les estimations de l'ELIA. L'étude porte sur les données des vagues 1 (2012) à 4 (2018) et utilise des exemples pratiques fondés sur des variables démographiques choisies pour illustrer la façon dont l'attrition doit être évaluée et traitée.

Date de diffusion : 2022-11-14
23. Inférence bayésienne pour un modèle des composantes de la variance fondée sur la vraisemblance composite par paire à partir des données d’enquête
Articles et rapports : 12-001-X202200100002
Description :
Nous considérons un modèle linéaire à effets aléatoires avec ordonnée à l’origine seulement pour l’analyse de données à partir d’un plan d’échantillonnage en grappes à deux degrés. Au premier degré, un échantillon aléatoire simple de grappes est tiré et au deuxième degré, un échantillon aléatoire simple d’unités élémentaires est prélevé dans chaque grappe sélectionnée. La variable de réponse est censée se composer d’un effet aléatoire au niveau de la grappe en plus d’un terme d’erreurs indépendant dont la variance est connue. Les objets de l’inférence sont la moyenne de la variable de résultat et la variance des effets aléatoires. Dans le cas d’un plan d’échantillonnage à deux degrés plus complexe, l’utilisation d’une approche fondée sur une fonction de vraisemblance composite par paire estimée présente des propriétés attrayantes. Notre objectif est d’utiliser notre cas plus simple pour comparer les résultats de l’inférence fondée sur la vraisemblance à ceux de l’inférence fondée sur une fonction de vraisemblance composite par paire qui est considérée comme une vraisemblance approximative, et en particulier comme une composante de la vraisemblance dans l’inférence bayésienne. Afin de fournir des intervalles de crédibilité ayant une couverture fréquentiste se rapprochant des valeurs nominales, la fonction de vraisemblance composite par paire et la densité a posteriori correspondante nécessitent une modification, comme un ajustement de la courbure. Au moyen d’études par simulations, nous étudions le rendement d’un ajustement proposé dans la littérature et concluons que ce dernier fonctionne bien pour la moyenne, mais fournit des intervalles de crédibilité pour la variance des effets aléatoires présentant un sous-couverture. Nous proposons des orientations futures possibles, y compris des prolongements du cas d’un plan d’échantillonnage complexe.

Date de diffusion : 2022-06-21
24. Efficacité relative des méthodes fondées sur l’estimation par régression d’enquête assistée par un modèle : une étude par simulations
Articles et rapports : 12-001-X202200100003
Description :
L’utilisation de données auxiliaires pour améliorer l’efficacité des estimateurs de totaux et de moyennes grâce à l’estimation par régression d’enquête assistée par un modèle a suscité un grand intérêt au cours de ces dernières années. Les estimateurs par la régression généralisée (ERG), basés sur un modèle de régression linéaire de travail, sont actuellement utilisés dans les enquêtes auprès d’établissements au sein de Statistique Canada et dans plusieurs autres organismes statistiques. Les estimateurs ERG utilisent des poids d’enquête communs à toutes les variables de l’étude et tiennent compte des totaux de population connus des variables auxiliaires. De plus en plus, de nombreuses variables auxiliaires sont disponibles, dont certaines peuvent être extérieures. Cela donne lieu des poids d’ERG fluctuants lorsque toutes les variables auxiliaires disponibles, y compris les interactions entre les variables catégorielles, sont utilisées dans le modèle de régression linéaire de travail. Par ailleurs, de nouvelles méthodes d’apprentissage automatique, comme les arbres de régression et les méthodes LASSO, sélectionnent automatiquement les variables auxiliaires significatives et donnent lieu à des poids non négatifs stables et à des gains d’efficacité possibles par rapport aux estimateurs ERG. Dans le présent article, une étude par simulations, basée sur un ensemble de données réelles d’une enquête réalisée auprès d’entreprises considérées comme la population cible, est menée pour étudier la performance relative des estimateurs ERG, des arbres de régression et des méthodes LASSO en matière d’efficacité des estimateurs et de propriétés des poids de régression connexes. Des scénarios d’échantillonnage probabiliste et d’échantillonnage non probabiliste sont étudiés.

Date de diffusion : 2022-06-21
25. Inférence bayésienne pour les données multinomiales issues de petits domaines et intégrant l’incertitude sur la restriction d’ordre
Articles et rapports : 12-001-X202200100004
Description :
Lorsque la taille de l’échantillon d’un domaine est faible, le fait d’emprunter des renseignements aux voisins est une technique d’estimation sur petits domaines qui permet d’obtenir des estimations plus fiables. L’un des modèles les plus connus en ce qui concerne l’estimation sur petits domaines est un modèle multinomial hiérarchique de Dirichlet pour les comptes multinomiaux. En raison des caractéristiques naturelles des données, il est pertinent d’émettre une hypothèse sur la restriction d’ordre unimodal dans le cas des espaces de paramètres. Dans notre application, l’indice de masse corporelle est plus susceptible de correspondre à un niveau de surpoids, ce qui signifie que la restriction d’ordre unimodal pourrait être raisonnable. La même restriction d’ordre unimodal pour tous les domaines pourrait être trop forte pour s’avérer dans certains cas. Pour accroître la souplesse, nous ajoutons une incertitude à la restriction d’ordre unimodal. Chaque domaine présentera des tendances unimodaux similaires, sans être identiques. Comme la restriction d’ordre intégrant de l’incertitude augmente la difficulté d’inférence, nous effectuons une comparaison avec les valeurs sommaires a posteriori et la pseudo-vraisemblance marginale logarithmique approximative.

Date de diffusion : 2022-06-21
26. Une généralisation de la pondération de probabilité inverse
Articles et rapports : 12-001-X202200100009
Description :
La probabilité inverse, aussi connue en tant que l’estimateur de Horvitz-Thompson, est un outil de base de l’estimation pour une population finie. Même lorsque de l’information auxiliaire est disponible pour modéliser la variable d’intérêt, elle est utilisée pour estimer l’erreur du modèle. Dans la présente étude, l’estimateur de probabilité inverse est généralisé par l’introduction d’une matrice définie positive. L’estimateur de probabilité inverse habituel est un cas spécial de l’estimateur généralisé, dans lequel la matrice définie positive est la matrice identité. Étant donné que l’estimation par calage permet de chercher des poids qui sont proches des poids de probabilité inverse, elle peut également être généralisée pour permettre de chercher des poids qui sont proches de ceux de l’estimateur de probabilité inverse généralisé. Nous savons que le calage est optimal, car il atteint asymptotiquement la borne inférieure de Godambe-Joshi, et celle-ci a été obtenue à partir d’un modèle dépourvu de corrélation. Cette borne inférieure peut également être généralisée en vue de permettre des corrélations. En choisissant judicieusement la matrice définie positive qui généralise les estimateurs par calage, cette borne inférieure généralisée peut être atteinte de façon asymptotique. Bien souvent, il n’existe pas de formule analytique pour calculer les estimateurs généralisés. Toutefois, des exemples simples et clairs sont fournis dans la présente étude pour illustrer la façon dont les estimateurs généralisés tirent parti des corrélations. Cette simplicité s’obtient en supposant une corrélation de 1 entre certaines unités de la population. Ces estimateurs simples peuvent être utiles, même si cette corrélation est inférieure à 1. Des résultats de simulation sont utilisés pour comparer les estimateurs généralisés aux estimateurs ordinaires.

Date de diffusion : 2022-06-21
27. Enquête canadienne sur le revenu : Modification apportée à la base démographique de référence, 2012 à 2019
Articles et rapports : 75F0002M2022001
Description :
Les statistiques sur le revenu sont mises à jour périodiquement pour tenir compte des estimations de population les plus récentes dérivées après le recensement. Ainsi, avec la diffusion des données de 2020 de l’Enquête canadienne sur le revenu (ECR), Statistique Canada a révisé les estimations pour la période allant de 2012 à 2019 en utilisant les totaux des estimations de population fondées sur le Recensement de 2016. Le présent document fournit une comparaison entre les estimations révisées et non révisées pour des statistiques de revenu clés et une description des autres modifications apportées aux variables de l’ECR.

Date de diffusion : 2022-03-23
28. Deux diagnostics locaux pour évaluer l’efficacité du meilleur prédicteur empirique issu du modèle de Fay-Herriot
Articles et rapports : 12-001-X202100200001
Description :
Le modèle de Fay-Herriot est souvent utilisé pour obtenir des estimations sur petits domaines. Ces estimations sont généralement plus efficaces que les estimations directes classiques. Afin d’évaluer les gains d’efficacité obtenus par les méthodes d’estimation sur petits domaines, on produit généralement des estimations de l’erreur quadratique moyenne fondée sur le modèle. Cependant, ces estimations ne permettent pas de tenir compte de toute la spécificité d’un domaine en particulier car elles font disparaître l’effet local en prenant une espérance par rapport au modèle. Une alternative consiste à estimer l’erreur quadratique moyenne fondée sur le plan de sondage des estimateurs sur petits domaines. Cette dernière est souvent plus attrayante du point de vue des utilisateurs. Il est cependant connu que les estimateurs de l’erreur quadratique moyenne fondée sur le plan de sondage peuvent être très instables, particulièrement pour les domaines qui contiennent peu d’unités échantillonnées. Dans cet article, nous proposons deux diagnostics locaux qui ont pour objectif de faire un choix entre le meilleur prédicteur empirique et l’estimateur direct pour un domaine en particulier. Nous trouvons d’abord un intervalle de valeurs de l’effet local tel que le meilleur prédicteur est plus efficace sous le plan que l’estimateur direct. Ensuite, nous considérons deux approches différentes pour évaluer s’il est plausible que l’effet local se trouve dans cet intervalle. Nous examinons nos diagnostics au moyen d’une étude par simulation. Nos résultats préliminaires semblent prometteurs quant à l’utilité de ces diagnostics pour choisir entre le meilleur prédicteur empirique et l’estimateur direct.
Date de diffusion : 2022-01-06
29. Estimation de la variance par le bootstrap avec remise pour les enquêtes auprès des ménages Principes, exemples et mise en œuvre
Articles et rapports : 12-001-X202100200005
Description :
L’estimation de la variance est un problème difficile dans les enquêtes, car plusieurs facteurs non négligeables contribuent à l’erreur d’enquête totale, notamment l’échantillonnage et la non-réponse totale. Initialement conçue pour saisir la variance des statistiques non triviales à partir de données indépendantes et identiquement distribuées, la méthode bootstrap a depuis été adaptée de diverses façons pour tenir compte des éléments ou facteurs propres à l’enquête. Dans l’article, nous examinons l’une de ces variantes, le bootstrap avec remise. Nous considérons les enquêtes auprès des ménages, avec ou sans sous-échantillonnage de personnes. Nous rendons explicites les estimateurs de la variance que le bootstrap avec remise vise à reproduire. Nous expliquons comment le bootstrap peut servir à tenir compte de l’effet de l’échantillonnage, du traitement de la non-réponse et du calage sur l’erreur d’enquête totale. Par souci de clarté, les méthodes proposées sont illustrées au moyen d’un exemple traité en fil rouge. Elles sont évaluées dans le cadre d’une étude par simulations et appliquées au Panel Politique de la Ville (PPV) français. Deux macros SAS pour exécuter les méthodes bootstrap sont également élaborées.
Date de diffusion : 2022-01-06
30. Estimation de la variance par répliques après calage fondé sur l’échantillon
Articles et rapports : 12-001-X202100200006
Description :
Le calage fondé sur l’échantillon se produit quand les poids d’une enquête sont calés pour contrôler les totaux aléatoires, au lieu de représenter les totaux fixes au niveau de la population. Les totaux de contrôle peuvent être estimés à partir de différentes phases de la même enquête ou d’une autre enquête. En cas de calage fondé sur l’échantillon, pour que l’estimation de la variance soit valide, il est nécessaire de tenir compte de la contribution de l’erreur due à l’estimation des totaux de contrôle. Nous proposons une nouvelle méthode d’estimation de la variance qui utilise directement les poids de rééchantillonnage de deux enquêtes, dont une sert à fournir des totaux de contrôle pour le calage des autres poids d’enquête. Aucune restriction n’est établie quant à la nature des deux méthodes de rééchantillonnage et il n’est pas nécessaire de calculer d’estimation de la variance-covariance, ce qui simplifie la mise en œuvre pratique de la méthode proposée. Nous fournissons la description générale de la méthode utilisée pour les enquêtes comportant deux méthodes de rééchantillonnage arbitraire avec un nombre de répliques différent. Il est démontré que l’estimateur de la variance obtenu est convergent pour la variance asymptotique de l’estimateur calé, quand le calage est effectué au moyen de l’estimation par la régression ou la méthode itérative du quotient (raking). La méthode est illustrée dans une application réelle, dans laquelle il faut harmoniser la composition démographique de deux enquêtes pour améliorer la comparabilité des estimations de l’enquête.
Date de diffusion : 2022-01-06

Références (5)

Références (5) ((5 résultats))

1. Rapport technique sur l'échantillonnage et la pondération, Recensement de la population
Enquêtes et programmes statistiques — Documentation : 98-306-X
Description :
Ce rapport donne une description des méthodes d'échantillonnage, de pondération et d'estimation utilisées pour le Recensement de la population. Il fournit les justifications opérationnelles et théoriques et présente les résultats des évaluations de ces méthodes.
Date de diffusion : 2023-10-04
2. Taux d’imposition et de transfert effectifs : Note de référence technique
Avis et consultations : 75F0002M2019006
Description :
En 2018, Statistique Canada a diffusé deux nouveaux tableaux de données présentant des estimations des taux d’imposition et de transfert effectifs des déclarants et des familles de recensement. Ces estimations sont tirées de la Banque de données administratives longitudinales. La publication fournit une description détaillée des méthodes utilisées pour produire les estimations des taux d’imposition et de transfert effectifs.
Date de diffusion : 2019-04-16
3. Méthodes d'estimation de la population et des familles à Statistique Canada
Enquêtes et programmes statistiques — Documentation : 91-528-X
Description :
Ce manuel offre des descriptions détaillées des sources de données et des méthodes utilisées par Statistique Canada pour produire des estimations de la population. Elles comportent : les estimations postcensitaires et intercensitaires de la population; la population de départ; les naissances et les décès; l'immigration; les émigrations; les résidents non permanents; la migration interprovinciale; les estimations infraprovinciales de la population; les estimations de la population selon l'âge, le sexe et l'état matrimonial et les estimations des familles de recensement. Un glossaire des termes courants est inclus à la fin du manuel, suivi de la notation normalisée utilisée.
Auparavant, la documentation sur les changements méthodologiques pour le calcul des estimations était éparpillée dans plusieurs publications et documents d'information de Statistique Canada. Ce manuel offre aux utilisateurs de statistiques démographiques un recueil exhaustif des procédures actuelles utilisées par Statistique Canada pour élaborer des estimations de la population et des familles.
Date de diffusion : 2015-11-17
4. Rapport technique sur l’échantillonnage et la pondération, Enquête nationale auprès des ménages
Enquêtes et programmes statistiques — Documentation : 99-002-X
Description : Ce rapport donne une description des méthodes d'échantillonnage et de pondération utilisées pour l’Enquête nationale auprès des ménages de 2011. Il fournit les justifications opérationnelles et théoriques et présente les résultats des études d'évaluation de ces méthodes.
Date de diffusion : 2015-01-28
5. Rapport technique du Recensement de 2006 : Échantillonnage et pondération
Enquêtes et programmes statistiques — Documentation : 92-568-X
Description :
Ce rapport donne une description des méthodes d'échantillonnage et de pondération utilisées pour le Recensement de 2006. Il fournit un historique de l'application de ces méthodes aux recensements du Canada ainsi que les fondements opérationnels et théoriques de ces méthodes, et présente les résultats des études d'évaluation.
Date de diffusion : 2009-08-11

Signaler un problème ou une erreur sur cette page

Date de modification :: 2024-05-26

Comment utiliser les filtres et le champ de recherche

Vous pouvez faire une recherche en inscrivant des mots-clés ou en sélectionnant des filtres (p. ex. sous Sujet, Géographie, etc.) du côté gauche de la page.
On peut utiliser les filtres ensemble ou former diverses combinaisons. À chaque sélection de filtre, la page des résultats est mise à jour.
Pour commencer une nouvelle recherche, cliquez sur le bouton Effacer tout au-dessus du champ de recherche ou décochez tous les filtres.
Les mots-clés et les filtres précisés sont affichés au-dessus du champ de recherche. Vous pouvez désélectionner l’un ou l’autre des éléments ou tous les éléments, pour préciser ou effacer votre recherche.

Comment préciser ma recherche

Vous pouvez entrer des mots-clés dans le champ de recherche. Il n’est pas nécessaire d’utiliser « + » ou « , » ou « ET ».
Vous pouvez supprimer certains mots-clés ou tous les mots-clés de votre chaîne de recherche.
Les mots-clés entre guillemets limitent la recherche à l’expression précise.
- Par exemple, si vous cherchez « Enquête sur la population active », vous obtiendrez seulement des documents contenant cette suite de mots.
Utilisez « ou » entre les mots-clés pour obtenir des résultats qui contiennent au moins l’un des termes recherchés.
- Par exemple, si vous cherchez enquête ou population ou active, vous obtiendrez seulement les documents contenant l’un ou l’autre de ces mots, ou tous ces mots.

Comment fonctionne la recherche

Cette forme de recherche fournira les résultats contenant le(s) mot(s) inscrit(s) dans le titre, la description, le sujet, la géographie, le numéro de produit ou toute autre information au sujet du produit.
- Par exemple, lorsque vous cherchez le mot « maladies », tous les résultats obtenus contiendront ce mot dans le titre, la description, ou le sujet.
La recherche ne se fait pas dans le texte des articles ou des publications. Pour faire une recherche plein texte dans les articles, utilisez la fonction de recherche du site.