Pondération et estimation

Aide à l'ordre

Résultats

Tout (44)

Tout (44) (0 à 10 de 44 résultats)

  • Enquêtes et programmes statistiques — Documentation : 98-306-X
    Description :

    Ce rapport donne une description des méthodes d'échantillonnage, de pondération et d'estimation utilisées pour le Recensement de la population de 2016. Il fournit les justifications opérationnelles et théoriques et présente les résultats des évaluations de ces méthodes.

    Date de diffusion : 2018-09-11

  • Articles et rapports : 12-001-X201800154925
    Description :

    Le présent article traite de l’inférence statistique sous un modèle de superpopulation en population finie quand on utilise des échantillons obtenus par échantillonnage d’ensembles ordonnés (EEO). Les échantillons sont construits sans remise. Nous montrons que la moyenne d’échantillon sous EEO est sans biais par rapport au modèle et présente une plus petite erreur de prédiction quadratique moyenne (EPQM) que la moyenne sous échantillonnage aléatoire simple (EAS). Partant d’un estimateur sans biais de l’EPQM, nous construisons aussi un intervalle de confiance de prédiction pour la moyenne de population. Une étude en simulation à petite échelle montre que cet estimateur est aussi bon qu’un estimateur sur échantillon aléatoire simple (EAS) quand l’information pour le classement est de qualité médiocre. Par ailleurs, cet estimateur est plus efficace que l’estimateur EAS quand la qualité de l’information de classement est bonne et que le ratio des coûts de l’obtention d’une unité sous EEO et sous EAS n’est pas très élevé. L’étude en simulation indique aussi que les probabilités de couverture des intervalles de prédiction sont très proches des probabilités de couverture nominales. La procédure d’inférence proposée est appliquée à un ensemble de données réel.

    Date de diffusion : 2018-06-21

  • Articles et rapports : 12-001-X201800154959
    Description :

    Les modèles pour petits domaines conçus pour traiter les données au niveau du domaine reposent habituellement sur l’hypothèse de normalité des effets aléatoires. Cette hypothèse ne tient pas toujours. L’article présente un nouveau modèle pour petits domaines dont les effets aléatoires suivent une loi t. En outre, la modélisation conjointe des moyennes et des variances de petit domaine est examinée. Il est montré que cette approche donne de meilleurs résultats que les autres méthodes.

    Date de diffusion : 2018-06-21

  • Articles et rapports : 12-001-X201800154963
    Description :

    Le cadre fondé sur l’échantillonnage probabiliste a joué un rôle dominant en recherche par sondage, parce qu’il fournit des outils mathématiques précis pour évaluer la variabilité d’échantillonnage. Toutefois, en raison de la hausse des coûts et de la baisse des taux de réponse, l’usage d’échantillons non probabilistes s’accroît, particulièrement dans le cas de populations générales, pour lesquelles le tirage d’échantillons à partir d’enquêtes en ligne devient de plus en plus économique et facile. Cependant, les échantillons non probabilistes posent un risque de biais de sélection dû à des différences d’accès et de degrés d’intérêt, ainsi qu’à d’autres facteurs. Le calage sur des totaux statistiques connus dans la population offre un moyen de réduire éventuellement l’effet du biais de sélection dans les échantillons non probabilistes. Ici, nous montrons que le calage assisté par un modèle en utilisant le LASSO adaptatif peut donner un estimateur convergent d’un total de population à condition qu’un sous-ensemble des variables explicatives réelles soit inclus dans le modèle de prédiction, permettant ainsi qu’un grand nombre de covariables possibles soit incluses sans risque de surajustement. Nous montrons que le calage assisté par un modèle en utilisant le LASSO adaptatif produit une meilleure estimation, pour ce qui est de l’erreur quadratique moyenne, que les méthodes concurrentes classiques, tels les estimateurs par la régression généralisée (GREG), quand un grand nombre de covariables sont nécessaires pour déterminer le modèle réel, sans vraiment qu’il y ait perte d’efficacité par rapport à la méthode GREG quand de plus petits modèles suffisent. Nous obtenons aussi des formules analytiques pour les estimateurs de variance des totaux de population, et comparons le comportement de ces estimateurs aux estimateurs bootstrap. Nous concluons par un exemple réel en utilisant des données provenant de la National Health Interview Survey.

    Date de diffusion : 2018-06-21

  • Articles et rapports : 11-626-X2017077
    Description :

    Le 13 avril 2017, le gouvernement du Canada a déposé le projet de loi de légalisation de la consommation récréative du cannabis pour les adultes. Cette décision aura une incidence directe sur le système statistique du Canada. Cet article d’Aperçus économiques vise à fournir des estimations expérimentales du volume de la consommation de cannabis, en se fondant sur des renseignements existants relatifs à la prévalence de la consommation de cannabis. Cet article présente les estimations expérimentales du nombre de tonnes de cannabis consommé par tranche d’âge au cours de la période allant de 1960 à 2015. Ces estimations expérimentales se fondent sur des données d’enquête de plusieurs sources, de techniques statistiques permettant de coupler les sources au cours du temps, et d’hypothèses relatives au comportement de consommation. Elles pourront faire l’objet de révisions à mesure que des sources de données améliorées ou supplémentaires deviennent disponibles.

    Date de diffusion : 2017-12-18

  • Articles et rapports : 12-001-X201700114819
    Description :

    La modélisation de séries chronologiques structurelle est une puissante technique de réduction des variances pour les estimations sur petits domaines (EPD) reposant sur des enquêtes répétées. Le bureau central de la statistique des Pays-Bas utilise un modèle de séries chronologiques structurel pour la production des chiffres mensuels de l’Enquête sur la population active (EPA) des Pays-Bas. Cependant, ce type de modèle renferme des hyperparamètres inconnus qui doivent être estimés avant que le filtre de Kalman ne puisse être appliqué pour estimer les variables d’état du modèle. Le présent article décrit une simulation visant à étudier les propriétés des estimateurs des hyperparamètres de tels modèles. La simulation des distributions de ces estimateurs selon différentes spécifications de modèle viennent compléter les diagnostics types pour les modèles espace-état. Une autre grande question est celle de l’incertitude entourant les hyperparamètres du modèle. Pour tenir compte de cette incertitude dans les estimations d’erreurs quadratiques moyennes (EQM) de l’EPA, différents modes d’estimation sont pris en compte dans une simulation. En plus de comparer les biais EQM, cet article examine les variances et les EQM des estimateurs EQM envisagés.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201700114823
    Description :

    L’obtention d’estimateurs dans un processus de calage à plusieurs phases requiert le calcul séquentiel des estimateurs et des poids calés des phases antérieures afin d’obtenir ceux de phases ultérieures. Déjà après deux phases de calage, les estimateurs et leurs variances comprennent des facteurs de calage provenant des deux phases, et les formules deviennent lourdes et non informatives. Par conséquent, les études publiées jusqu’à présent traitent principalement du calage à deux phases, tandis que le calage à trois phases ou plus est rarement envisagé. Dans certains cas, l’analyse s’applique à un plan de sondage particulier et aucune méthodologie complète n’est élaborée pour la construction d’estimateurs calés ni, tâche plus difficile, pour l’estimation de leur variance en trois phases ou plus. Nous fournissons une expression explicite pour calculer la variance d’estimateurs calés en plusieurs phases qui tient pour n’importe quel nombre de phases. En spécifiant une nouvelle représentation des poids calés en plusieurs phases, il est possible de construire des estimateurs calés qui ont la forme d’estimateurs par la régression multivariée, ce qui permet de calculer un estimateur convergent de leur variance. Ce nouvel estimateur de variance est non seulement général pour tout nombre de phases, mais possède aussi certaines caractéristiques favorables. Nous présentons une comparaison à d’autres estimateurs dans le cas particulier du calage à deux phases, ainsi qu’une étude indépendante pour le cas à trois phases.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201600214660
    Description :

    Dans le cadre d’une enquête économique auprès d’un échantillon d’entreprises, on sélectionne au hasard des professions dans une liste jusqu’à ce que l’on identifie un nombre r de professions présentes dans une unité locale. Il s’agit d’un problème d’échantillonnage inverse pour lequel nous proposons quelques solutions. Les plans simples avec et sans remise se traitent au moyen des distributions binomiale négative et hypergéométrique négative. On propose également des estimateurs pour le cas où les unités sont sélectionnées à probabilités inégales avec ou sans remise.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214663
    Description :

    Nous présentons des preuves théoriques que les efforts déployés durant la collecte des données en vue d’équilibrer la réponse à l’enquête en ce qui concerne certaines variables auxiliaires augmentera les chances que le biais de non-réponse soit faible dans les estimations qui sont, en fin de compte, produites par pondération calée. Nous montrons que la variance du biais – mesurée ici comme étant l’écart de l’estimateur calé par rapport à l’estimateur sans biais sur échantillon complet (non réalisé) – diminue linéairement en fonction du déséquilibre de la réponse que nous supposons être mesuré et contrôlé continuellement tout au long de la période de collecte des données. Cela offre donc la perspective intéressante d’un plus faible risque de biais si l’on peut gérer la collecte des données de manière à réduire le déséquilibre. Les résultats théoriques sont validés au moyen d’une étude en simulation s’appuyant sur des données réelles provenant d’une enquête-ménages estonienne.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214664
    Description :

    Le présent article traite de l’inférence statistique de la moyenne d’une population finie fondée sur des échantillons poststratifiés par choix raisonné (PCR). L’échantillon PCR s’obtient en sélectionnant d’abord un échantillon aléatoire simple, puis en stratifiant les unités sélectionnées en H classes créées par choix raisonné en se basant sur les positions relatives (rangs) des unités dans un petit ensemble de taille H. Cela donne un échantillon présentant des tailles d’échantillon aléatoires dans les classes créées par choix raisonné. Le processus de classement peut être effectué en se servant de variables auxiliaires ou par inspection visuelle afin de déterminer les rangs des observations mesurées. L’article décrit l’élaboration d’un estimateur sans biais et la construction d’un intervalle de confiance pour la moyenne de population. Puisque les rangs déterminés par choix raisonné sont des variables aléatoires, en conditionnant sur les observations mesurées, nous construisons des estimateurs Rao-Blackwellisés de la moyenne de population. Nous montrons que les estimateurs Rao-Blackwellisés donnent de meilleurs résultats que les estimateurs PCR habituels. Les estimateurs proposés sont appliqués aux données du recensement de 2012 du United States Department of Agriculture.

    Date de diffusion : 2016-12-20
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (40)

Analyses (40) (0 à 10 de 40 résultats)

  • Articles et rapports : 12-001-X201800154925
    Description :

    Le présent article traite de l’inférence statistique sous un modèle de superpopulation en population finie quand on utilise des échantillons obtenus par échantillonnage d’ensembles ordonnés (EEO). Les échantillons sont construits sans remise. Nous montrons que la moyenne d’échantillon sous EEO est sans biais par rapport au modèle et présente une plus petite erreur de prédiction quadratique moyenne (EPQM) que la moyenne sous échantillonnage aléatoire simple (EAS). Partant d’un estimateur sans biais de l’EPQM, nous construisons aussi un intervalle de confiance de prédiction pour la moyenne de population. Une étude en simulation à petite échelle montre que cet estimateur est aussi bon qu’un estimateur sur échantillon aléatoire simple (EAS) quand l’information pour le classement est de qualité médiocre. Par ailleurs, cet estimateur est plus efficace que l’estimateur EAS quand la qualité de l’information de classement est bonne et que le ratio des coûts de l’obtention d’une unité sous EEO et sous EAS n’est pas très élevé. L’étude en simulation indique aussi que les probabilités de couverture des intervalles de prédiction sont très proches des probabilités de couverture nominales. La procédure d’inférence proposée est appliquée à un ensemble de données réel.

    Date de diffusion : 2018-06-21

  • Articles et rapports : 12-001-X201800154959
    Description :

    Les modèles pour petits domaines conçus pour traiter les données au niveau du domaine reposent habituellement sur l’hypothèse de normalité des effets aléatoires. Cette hypothèse ne tient pas toujours. L’article présente un nouveau modèle pour petits domaines dont les effets aléatoires suivent une loi t. En outre, la modélisation conjointe des moyennes et des variances de petit domaine est examinée. Il est montré que cette approche donne de meilleurs résultats que les autres méthodes.

    Date de diffusion : 2018-06-21

  • Articles et rapports : 12-001-X201800154963
    Description :

    Le cadre fondé sur l’échantillonnage probabiliste a joué un rôle dominant en recherche par sondage, parce qu’il fournit des outils mathématiques précis pour évaluer la variabilité d’échantillonnage. Toutefois, en raison de la hausse des coûts et de la baisse des taux de réponse, l’usage d’échantillons non probabilistes s’accroît, particulièrement dans le cas de populations générales, pour lesquelles le tirage d’échantillons à partir d’enquêtes en ligne devient de plus en plus économique et facile. Cependant, les échantillons non probabilistes posent un risque de biais de sélection dû à des différences d’accès et de degrés d’intérêt, ainsi qu’à d’autres facteurs. Le calage sur des totaux statistiques connus dans la population offre un moyen de réduire éventuellement l’effet du biais de sélection dans les échantillons non probabilistes. Ici, nous montrons que le calage assisté par un modèle en utilisant le LASSO adaptatif peut donner un estimateur convergent d’un total de population à condition qu’un sous-ensemble des variables explicatives réelles soit inclus dans le modèle de prédiction, permettant ainsi qu’un grand nombre de covariables possibles soit incluses sans risque de surajustement. Nous montrons que le calage assisté par un modèle en utilisant le LASSO adaptatif produit une meilleure estimation, pour ce qui est de l’erreur quadratique moyenne, que les méthodes concurrentes classiques, tels les estimateurs par la régression généralisée (GREG), quand un grand nombre de covariables sont nécessaires pour déterminer le modèle réel, sans vraiment qu’il y ait perte d’efficacité par rapport à la méthode GREG quand de plus petits modèles suffisent. Nous obtenons aussi des formules analytiques pour les estimateurs de variance des totaux de population, et comparons le comportement de ces estimateurs aux estimateurs bootstrap. Nous concluons par un exemple réel en utilisant des données provenant de la National Health Interview Survey.

    Date de diffusion : 2018-06-21

  • Articles et rapports : 11-626-X2017077
    Description :

    Le 13 avril 2017, le gouvernement du Canada a déposé le projet de loi de légalisation de la consommation récréative du cannabis pour les adultes. Cette décision aura une incidence directe sur le système statistique du Canada. Cet article d’Aperçus économiques vise à fournir des estimations expérimentales du volume de la consommation de cannabis, en se fondant sur des renseignements existants relatifs à la prévalence de la consommation de cannabis. Cet article présente les estimations expérimentales du nombre de tonnes de cannabis consommé par tranche d’âge au cours de la période allant de 1960 à 2015. Ces estimations expérimentales se fondent sur des données d’enquête de plusieurs sources, de techniques statistiques permettant de coupler les sources au cours du temps, et d’hypothèses relatives au comportement de consommation. Elles pourront faire l’objet de révisions à mesure que des sources de données améliorées ou supplémentaires deviennent disponibles.

    Date de diffusion : 2017-12-18

  • Articles et rapports : 12-001-X201700114819
    Description :

    La modélisation de séries chronologiques structurelle est une puissante technique de réduction des variances pour les estimations sur petits domaines (EPD) reposant sur des enquêtes répétées. Le bureau central de la statistique des Pays-Bas utilise un modèle de séries chronologiques structurel pour la production des chiffres mensuels de l’Enquête sur la population active (EPA) des Pays-Bas. Cependant, ce type de modèle renferme des hyperparamètres inconnus qui doivent être estimés avant que le filtre de Kalman ne puisse être appliqué pour estimer les variables d’état du modèle. Le présent article décrit une simulation visant à étudier les propriétés des estimateurs des hyperparamètres de tels modèles. La simulation des distributions de ces estimateurs selon différentes spécifications de modèle viennent compléter les diagnostics types pour les modèles espace-état. Une autre grande question est celle de l’incertitude entourant les hyperparamètres du modèle. Pour tenir compte de cette incertitude dans les estimations d’erreurs quadratiques moyennes (EQM) de l’EPA, différents modes d’estimation sont pris en compte dans une simulation. En plus de comparer les biais EQM, cet article examine les variances et les EQM des estimateurs EQM envisagés.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201700114823
    Description :

    L’obtention d’estimateurs dans un processus de calage à plusieurs phases requiert le calcul séquentiel des estimateurs et des poids calés des phases antérieures afin d’obtenir ceux de phases ultérieures. Déjà après deux phases de calage, les estimateurs et leurs variances comprennent des facteurs de calage provenant des deux phases, et les formules deviennent lourdes et non informatives. Par conséquent, les études publiées jusqu’à présent traitent principalement du calage à deux phases, tandis que le calage à trois phases ou plus est rarement envisagé. Dans certains cas, l’analyse s’applique à un plan de sondage particulier et aucune méthodologie complète n’est élaborée pour la construction d’estimateurs calés ni, tâche plus difficile, pour l’estimation de leur variance en trois phases ou plus. Nous fournissons une expression explicite pour calculer la variance d’estimateurs calés en plusieurs phases qui tient pour n’importe quel nombre de phases. En spécifiant une nouvelle représentation des poids calés en plusieurs phases, il est possible de construire des estimateurs calés qui ont la forme d’estimateurs par la régression multivariée, ce qui permet de calculer un estimateur convergent de leur variance. Ce nouvel estimateur de variance est non seulement général pour tout nombre de phases, mais possède aussi certaines caractéristiques favorables. Nous présentons une comparaison à d’autres estimateurs dans le cas particulier du calage à deux phases, ainsi qu’une étude indépendante pour le cas à trois phases.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201600214660
    Description :

    Dans le cadre d’une enquête économique auprès d’un échantillon d’entreprises, on sélectionne au hasard des professions dans une liste jusqu’à ce que l’on identifie un nombre r de professions présentes dans une unité locale. Il s’agit d’un problème d’échantillonnage inverse pour lequel nous proposons quelques solutions. Les plans simples avec et sans remise se traitent au moyen des distributions binomiale négative et hypergéométrique négative. On propose également des estimateurs pour le cas où les unités sont sélectionnées à probabilités inégales avec ou sans remise.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214663
    Description :

    Nous présentons des preuves théoriques que les efforts déployés durant la collecte des données en vue d’équilibrer la réponse à l’enquête en ce qui concerne certaines variables auxiliaires augmentera les chances que le biais de non-réponse soit faible dans les estimations qui sont, en fin de compte, produites par pondération calée. Nous montrons que la variance du biais – mesurée ici comme étant l’écart de l’estimateur calé par rapport à l’estimateur sans biais sur échantillon complet (non réalisé) – diminue linéairement en fonction du déséquilibre de la réponse que nous supposons être mesuré et contrôlé continuellement tout au long de la période de collecte des données. Cela offre donc la perspective intéressante d’un plus faible risque de biais si l’on peut gérer la collecte des données de manière à réduire le déséquilibre. Les résultats théoriques sont validés au moyen d’une étude en simulation s’appuyant sur des données réelles provenant d’une enquête-ménages estonienne.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214664
    Description :

    Le présent article traite de l’inférence statistique de la moyenne d’une population finie fondée sur des échantillons poststratifiés par choix raisonné (PCR). L’échantillon PCR s’obtient en sélectionnant d’abord un échantillon aléatoire simple, puis en stratifiant les unités sélectionnées en H classes créées par choix raisonné en se basant sur les positions relatives (rangs) des unités dans un petit ensemble de taille H. Cela donne un échantillon présentant des tailles d’échantillon aléatoires dans les classes créées par choix raisonné. Le processus de classement peut être effectué en se servant de variables auxiliaires ou par inspection visuelle afin de déterminer les rangs des observations mesurées. L’article décrit l’élaboration d’un estimateur sans biais et la construction d’un intervalle de confiance pour la moyenne de population. Puisque les rangs déterminés par choix raisonné sont des variables aléatoires, en conditionnant sur les observations mesurées, nous construisons des estimateurs Rao-Blackwellisés de la moyenne de population. Nous montrons que les estimateurs Rao-Blackwellisés donnent de meilleurs résultats que les estimateurs PCR habituels. Les estimateurs proposés sont appliqués aux données du recensement de 2012 du United States Department of Agriculture.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214677
    Description :

    Comment savoir si les ajustements de la pondération réduisent ou non le biais de non-réponse ? Si une variable est mesurée pour toutes les unités de l’échantillon sélectionné, on peut calculer une estimation approximativement sans biais de la moyenne ou du total de population pour cette variable en se servant des poids de sondage. Une seconde estimation de la moyenne ou du total de population peut être obtenue en se basant uniquement sur les répondants à l’enquête et en utilisant des poids ajustés pour tenir compte de la non-réponse. Si les deux estimations ne concordent pas, il y a des raisons de penser que les ajustements des poids n’ont peut-être pas éliminé le biais de non-réponse pour la variable en question. Dans le présent article, nous développons les propriétés théoriques des estimateurs de variance par linéarisation et par jackknife en vue d’évaluer le biais d’une estimation de la moyenne ou du total de population par comparaison des estimations obtenues pour des sous-ensembles chevauchants des mêmes données avec différents ensembles de poids, quand la poststratification ou la pondération par l’inverse de la propension à répondre servent à ajuster les poids pour tenir compte de la non-réponse. Nous donnons les conditions suffisantes sur la population, l’échantillon et le mécanisme de réponse pour que les estimateurs de variance soient convergents, et démontrons les propriétés de ces derniers pour un petit échantillon au moyen d’une étude par simulation.

    Date de diffusion : 2016-12-20
Références (4)

Références (4) ((4 résultats))

  • Enquêtes et programmes statistiques — Documentation : 98-306-X
    Description :

    Ce rapport donne une description des méthodes d'échantillonnage, de pondération et d'estimation utilisées pour le Recensement de la population de 2016. Il fournit les justifications opérationnelles et théoriques et présente les résultats des évaluations de ces méthodes.

    Date de diffusion : 2018-09-11

  • Enquêtes et programmes statistiques — Documentation : 91-528-X
    Description :

    Ce manuel offre des descriptions détaillées des sources de données et des méthodes utilisées par Statistique Canada pour produire des estimations de la population. Elles comportent : les estimations postcensitaires et intercensitaires de la population; la population de départ; les naissances et les décès; l'immigration; les émigrations; les résidents non permanents; la migration interprovinciale; les estimations infraprovinciales de la population; les estimations de la population selon l'âge, le sexe et l'état matrimonial et les estimations des familles de recensement. Un glossaire des termes courants est inclus à la fin du manuel, suivi de la notation normalisée utilisée.

    Auparavant, la documentation sur les changements méthodologiques pour le calcul des estimations était éparpillée dans plusieurs publications et documents d'information de Statistique Canada. Ce manuel offre aux utilisateurs de statistiques démographiques un recueil exhaustif des procédures actuelles utilisées par Statistique Canada pour élaborer des estimations de la population et des familles.

    Date de diffusion : 2015-11-17

  • Enquêtes et programmes statistiques — Documentation : 99-002-X
    Description : Ce rapport donne une description des méthodes d'échantillonnage et de pondération utilisées pour l’Enquête nationale auprès des ménages de 2011. Il fournit les justifications opérationnelles et théoriques et présente les résultats des études d'évaluation de ces méthodes.
    Date de diffusion : 2015-01-28

  • Enquêtes et programmes statistiques — Documentation : 92-568-X
    Description :

    Ce rapport donne une description des méthodes d'échantillonnage et de pondération utilisées pour le Recensement de 2006. Il fournit un historique de l'application de ces méthodes aux recensements du Canada ainsi que les fondements opérationnels et théoriques de ces méthodes, et présente les résultats des études d'évaluation.

    Date de diffusion : 2009-08-11
Date de modification :