Pondération et estimation

Aide à l'ordre

Résultats

Tout (49)

Tout (49) (40 à 50 de 49 résultats)

  • Articles et rapports : 12-001-X201400214128
    Description :

    Les utilisateurs et les fournisseurs de statistiques officielles, ainsi que ceux qui en assurent le financement, veulent des estimations « plus vastes, plus approfondies, plus rapides, de meilleure qualité et moins coûteuses » (selon Tim Holt, ancien chef de l’Office for National Statistics du Royaume-Uni), attributs auxquels j’ajouterais « plus pertinentes » et « moins fastidieuses ». Depuis la Deuxième Guerre mondiale, nous dépendons dans une large mesure des enquêtes sur échantillon probabiliste - celles-ci étant très bonnes dans les faits - pour atteindre ces objectifs pour les estimations dans de nombreux domaines, y compris le revenu des ménages et le chômage, l’état de santé autodéclaré, l’emploi du temps, les victimes d’actes criminels, l’activité des entreprises, les flux de produits, les dépenses des consommateurs et des entreprises, etc. Par suite des taux de plus en plus faibles de réponse totale et partielle et des preuves d’erreur de déclaration, nous avons réagi de nombreuses façons, y compris en utilisant des modes d’enquête multiples, des méthodes de pondération et d’imputation plus raffinées, l’échantillonnage adaptable, des essais cognitifs des questions d’enquête et d’autres méthodes pour maintenir la qualité des données. Dans le cas des statistiques sur le secteur des entreprises, afin de réduire le fardeau et les coûts, nous avons cessé depuis longtemps de recourir uniquement à des enquêtes pour produire les estimations nécessaires, mais jusqu’à présent, nous ne l’avons pas fait pour les enquêtes auprès des ménages, du moins pas aux États-Unis. Je soutiens que nous pouvons et que nous devons passer du paradigme de production des meilleures estimations possible à partir d’une enquête à la production des meilleures estimations possible pour répondre aux besoins des utilisateurs, à partir de sources de données multiples. Ces sources comprennent les dossiers administratifs et, de plus en plus, des données sur les transactions et des données en ligne. Je me sers de deux exemples - ceux du revenu des ménages et des installations de plomberie - pour illustrer ma thèse. Je propose des moyens d’inculquer une culture de la statistique officielle dont l’objectif est d’aboutir à des statistiques pertinentes, à jour, exactes et peu coûteuses, et qui traite les enquêtes, de même que les autres sources de données, comme des moyens d’atteindre cet objectif.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-002-X201400111901
    Description :

    Ce document est destiné aux analystes/chercheurs qui envisagent d'effectuer de la recherche avec des données issues d'une enquête pour lesquelles des poids d'enquête et des poids bootstrap sont fournis dans les fichiers de données. Ce document donne, pour certains progiciels choisis, des instructions sur la façon d'utiliser des poids d'enquête et des poids bootstrap pour effectuer une analyse de données d'enquête. Nous donnons de brèves instructions sur la façon d'obtenir des estimations fondées sur des enquêtes pondérées, des estimations de la variance bootstrap (ainsi que d'autres erreurs de quantités souhaitées) et quelques tests statistiques classiques pour chaque progiciel. Même si ces directives sont seulement fournies pour les exemples choisis, nous donnons des renseignements sur l'étendue des analyses pondérées utilisant les poids bootstrap qui peuvent être effectuées par chaque logiciel.

    Date de diffusion : 2014-08-07

  • Articles et rapports : 12-001-X201400114000
    Description :

    Nous avons mis en œuvre la technique de linéarisation généralisée reposant sur le concept de fonction d’influence tout comme l’a fait Osier (2009) pour estimer la variance de statistiques complexes telles que les indices de Laeken. Des simulations réalisées avec le langage R montrent que, pour les cas où l’on a recours à une estimation par noyau gaussien de la fonction de densité des revenus considérés, on obtient un fort biais pour la valeur estimée de la variance. On propose deux autres méthodes pour estimer la densité qui diminuent fortement le biais constaté. L’une de ces méthodes a déjà été esquissée par Deville (2000). Les résultats publiés ici permettront une amélioration substantielle de la qualité des informations sur la précision de certains indices de Laeken diffusées et comparées internationalement.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201400114004
    Description :

    En 2009, deux enquêtes importantes réalisées par la division des administrations publiques du U.S. Census Bureau ont été remaniées afin de réduire la taille de l’échantillon, d’économiser des ressources et d’améliorer la précision des estimations (Cheng, Corcoran, Barth et Hogue 2009). Sous le nouveau plan de sondage, chaque strate habituelle, définie par l’État et le type d’administration publique, qui contient un nombre suffisant d’unités (administrations publiques) est divisée en deux sous strates en fonction de la masse salariale totale de chaque unité afin de tirer un plus petit échantillon de la sous strate des unités de petite taille. L’approche assistée par modèle est adoptée pour estimer les totaux de population. Des estimateurs par la régression utilisant des variables auxiliaires sont obtenus soit pour chaque sous strate ainsi créée soit pour la strate originale en regroupant des deux sous strates. Cheng, Slud et Hogue (2010) ont proposé une méthode fondée sur un test de décision qui consiste à appliquer un test d’hypothèse pour décider quel estimateur par la régression sera utilisé pour chaque strate originale. La convergence et la normalité asymptotique de ces estimateurs assistés par modèle sont établies ici sous un cadre asymptotique fondé sur le plan de sondage ou assisté par modèle. Nos résultats asymptotiques suggèrent aussi deux types d’estimateurs de variance convergents, l’un obtenu par substitution des quantités inconnues dans les variances asymptotiques et l’autre en appliquant la méthode du bootstrap. La performance de tous les estimateurs des totaux et des estimateurs de leur variance est examinée au moyen d’études empiriques. L’Annual Survey of Public Employment and Payroll (ASPEP) des États Unis est utilisé pour motiver et illustrer notre étude.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201400114029
    Description :

    Fay et Train (1995) présentent une méthode qu’ils nomment successive difference replication, c.-à-d. répliques des différences successives, qui peut être utilisée pour estimer la variance d’un total estimé au moyen d’un échantillon aléatoire systématique tiré d’une liste ordonnée. L’estimateur prend la forme générale d’un estimateur de variance par rééchantillonnage, où les facteurs de rééchantillonnage sont construits de manière à imiter l’estimateur par différences successives. Cet estimateur est une modification de celui présenté dans Wolter (1985). Le présent article étend la méthodologie en expliquant l’effet de l’attribution des lignes de matrice sur l’estimateur de variance, en montrant comment un jeu réduit de répliques mène à un estimateur raisonnable et en établissant les conditions pour que la méthode des répliques des différences successives soit équivalente à l’estimateur par différences successives.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201400114030
    Description :

    L’article décrit les résultats d’une étude par simulation Monte Carlo réalisée en vue de comparer l’efficacité de quatre modèles hiérarchiques bayésiens d’estimation sur petits domaines pour estimer des proportions au niveau de l’État au moyen de données provenant d’échantillons aléatoires simples stratifiés tirés d’une population finie fixe. Deux des modèles reposent sur les hypothèses fréquentes selon lesquelles, pour chaque petit domaine échantillonné, la proportion pondérée par les poids de sondage estimée suit une loi normale et sa variance d’échantillonnage est connue. L’un de ces modèles comprend un modèle de lien linéaire et l’autre, un modèle de lien logistique. Les deux autres modèles utilisent tous deux un modèle de lien logistique et reposent sur l’hypothèse que la variance d’échantillonnage est inconnue. L’un de ces deux modèles suppose que le modèle d’échantillonnage obéit à une loi normale et l’autre, qu’il obéit à une loi bêta. L’étude montre que, pour chacun des quatre modèles, la couverture sous le plan de sondage de l’intervalle de crédibilité des proportions au niveau de l’État en population finie s’écarte considérablement du niveau nominal de 95 % utilisé pour construire les intervalles.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 82-003-X201400211903
    Géographie : Canada
    Description :

    À partir des données du Registre canadien du cancer, la présente étude examine l'incidence que l'utilisation de tables de mortalité historiques plutôt que de tables de mortalité à jour pour l'estimation de la survie prévue peut avoir sur le calcul des ratios de survie relative. Les résultats son présentés selon le sexe, le groupe d'âge et la durée de la survie.

    Date de diffusion : 2014-02-19

  • Articles et rapports : 11-536-X
    Description :

    Statistique Canada a tenu une conférence méthodologique en l'honneur du professeur Carl-Erik Särndal, les 31 octobre et 1er novembre 2007. Intitulée « Atelier sur le calage et l'estimation dans les enquêtes (ACES) », la séance portait sur divers aspects de la carrière du professeur Särndal dont les travaux, l'enseignement et les publications ont profondément marqué la façon dont les méthodologistes d'ici et d'ailleurs s'acquittent de leurs tâches quotidiennes. Pendant de nombreuses années, il a agi comme conseiller auprès de Statistique Canada, en plus d'être membre du Comité consultatif des méthodes statistiques. La portée et l'ampleur de son influence lui ont valu le Prix Waksberg 2007, l'une des récompenses les plus prestigieuses qu'un statisticien peut recevoir.

    Date de diffusion : 2009-08-11

  • Enquêtes et programmes statistiques — Documentation : 92-568-X
    Description :

    Ce rapport donne une description des méthodes d'échantillonnage et de pondération utilisées pour le Recensement de 2006. Il fournit un historique de l'application de ces méthodes aux recensements du Canada ainsi que les fondements opérationnels et théoriques de ces méthodes, et présente les résultats des études d'évaluation.

    Date de diffusion : 2009-08-11
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (45)

Analyses (45) (0 à 10 de 45 résultats)

  • Articles et rapports : 12-001-X201800254952
    Description :

    Les enquêtes par panel sont souvent utilisées pour mesurer l’évolution de paramètres au cours du temps. Ces enquêtes peuvent souffrir de différentes formes de non-réponse totale, situation que l’on traite à l’heure actuelle en estimant les probabilités de réponse et en effectuant une nouvelle pondération des répondants. La présente étude porte sur l’estimation, ainsi que l’estimation de la variance en cas de non-réponse totale dans les enquêtes par panel. En étendant les travaux de Kim et Kim (2007) à plusieurs périodes, nous considérons un estimateur ajusté par un score de propension qui tient compte de la non-réponse initiale et de l’attrition, et proposons un estimateur de variance approprié. Nous étendons ensuite cet estimateur afin de couvrir la plupart des estimateurs utilisés dans les enquêtes, y compris les estimateurs calés, les estimateurs de paramètres complexes et les estimateurs longitudinaux. Les propriétés de l’estimateur de variance proposé et d’un estimateur de variance simplifié sont évaluées au moyen d’une étude en simulation. Une illustration de la méthode proposée sur des données provenant de l’enquête ELFE est également présentée.

    Date de diffusion : 2018-12-20

  • Articles et rapports : 12-001-X201800254955
    Description :

    De nombreuses études menées dans les différentes compagnies d’électricité à travers le monde se basent sur l’analyse de courbes de consommation électrique moyennes pour différentes sous-populations, en particulier de nature géographique. Ces courbes moyennes sont estimées à partir d’échantillons de milliers de courbes mesurées à un pas de temps fin pendant de longues périodes. L’estimation sur de petites sous-populations, aussi appelées petits domaines, est un sujet très courant en théorie des sondages.

    Dans cet article, nous traitons cette problématique dans le cadre des données fonctionnelles et nous cherchons à estimer des courbes moyennes de petits domaines. Pour cela, nous proposons quatre méthodes : la régression linéaire fonctionnelle, la modélisation des scores d’une analyse en composantes principales par des modèles linéaires mixtes au niveau unité, ainsi que deux estimateurs non paramétriques basés l’un sur des arbres de régression, l’autre sur des forêts aléatoires, adaptés aux courbes. L’ensemble de ces méthodes ont été testées et comparées sur des données réelles de consommation électrique de ménages français.

    Date de diffusion : 2018-12-20

  • Articles et rapports : 12-001-X201800254956
    Description :

    En Italie, l’Institut statistique national (ISTAT) mène tous les trimestres l’enquête sur la population active (EPA) et en tire des estimations de la situation d’activité de la population à différents niveaux géographiques. Il estime en particulier le nombre de salariés et de chômeurs en s’appuyant sur cette enquête pour les zones locales de marché du travail (ZLMT). En tant que ZLMT, on compte 611 grappes infrarégionales de municipalités. Ce sont là des domaines non planifiés pour lesquels les estimations directes sont entachées de trop grandes erreurs d’échantillonnage, d’où la nécessité de recourir aux méthodes d’estimation sur petits domaines (EPD). Nous exposerons ici une nouvelle méthode EPD à niveaux de zones avec un modèle latent ou caché de Markov (MLM) comme modèle de couplage. Dans de tels modèles, la caractéristique d’intérêt et son évolution dans le temps sont représentées par un processus caché en chaîne de Markov, habituellement du premier ordre. Ainsi, les zones en question sont à même de changer leur état latent dans le temps. Nous appliquons le modèle proposé aux données trimestrielles de l’EPA de 2004 à 2014 et l’ajustons dans un cadre bayésien hiérarchique au moyen d’un échantillonneur de Gibbs à augmentation de données. Nous comparons nos estimations à celles du modèle classique de Fay-Herriot, à un modèle EPD à niveaux de zones et en séries chronologiques et enfin aux données du recensement de la population de 2011.

    Date de diffusion : 2018-12-20

  • Articles et rapports : 12-001-X201800254958
    Description :

    Les domaines (ou sous-populations) pour lesquels les échantillons sont de petite taille sont appelés petits domaines. Les estimateurs directs classiques ne sont pas suffisamment précis pour ces petits domaines, en raison de la petite taille des échantillons. Or, la demande de statistiques fiables pour les petits domaines a augmenté considérablement. On utilise à l’heure actuelle des estimateurs indirects des moyennes ou des totaux de petits domaines basés sur un modèle pour résoudre les difficultés que pose l’estimation directe. Ces estimateurs reposent sur des modèles de liaison qui empruntent de l’information aux divers domaines pour accroître l’efficacité. En particulier, beaucoup d’attention a été accordée dans la littérature aux meilleurs estimateurs empiriques ou estimateurs EB (pour Empirical Best) sous des modèles de régression linéaires au niveau du domaine et au niveau de l’unité contenant des effets aléatoires de petit domaine. L’erreur quadratique moyenne (EQM) des estimateurs EB sous le modèle sert fréquemment à mesurer la variabilité des estimateurs. Les estimateurs par linéarisation, ainsi que les estimateurs jackknife et bootstrap de l’EQM sous le modèle sont d’usage très répandu. Toutefois, les organismes statistiques nationaux s’intéressent souvent à l’estimation de l’EQM des estimateurs EB sous le plan de sondage, pour cadrer avec les estimateurs classiques de l’EQM sous le plan associés aux estimateurs directs pour les grands domaines dont les tailles d’échantillon sont adéquates. Les estimateurs de l’EQM sous le plan des estimateurs EB peuvent être obtenus pour les modèles au niveau du domaine, mais ils ont tendance à être instables quand la taille de l’échantillon du domaine est petite. Des estimateurs composites de l’EQM, obtenus en prenant une somme pondérée de l’estimateur de l’EQM sous le plan et de l’estimateur de l’EQM sous le modèle, sont proposés dans le présent article. Les propriétés des estimateurs de l’EQM sous le modèle au niveau du domaine sont étudiées en examinant le biais, la racine carrée de l’erreur quadratique moyenne relative et le taux de couverture des intervalles de confiance sous le plan de sondage. Le cas d’un modèle au niveau de l’unité est également examiné sous échantillonnage aléatoire simple dans chaque domaine. Les résultats d’une étude en simulation montrent que les estimateurs composites proposés de l’EQM offrent un bon compromis pour l’estimation de l’EQM sous le plan.

    Date de diffusion : 2018-12-20

  • Articles et rapports : 12-001-X201800254960
    Description :

    En présence d’information auxiliaire, la technique de calage est souvent utilisée pour améliorer la précision des estimations produites. Cependant, les pondérations par calage peuvent ne pas convenir à toutes les variables d’intérêt de l’enquête, en particulier celles qui ne sont pas liées aux variables auxiliaires utilisées dans le calage. Dans ce papier, nous proposons un critère permettant d’évaluer pour toute variable d’intérêt l’effet de l’utilisation de la pondération par calage sur la précision de l’estimation de son total. Ce critère permet donc de décider des pondérations associées à chacune des variables d’intérêt d’une enquête et de déterminer ainsi celles pour lesquelles il convient d’utiliser la pondération par calage.

    Date de diffusion : 2018-12-20

  • Articles et rapports : 12-001-X201800254961
    Description :

    Dans les enquêtes auprès des entreprises, il est courant de collecter des variables économiques dont la distribution est fortement asymétrique. Dans ce contexte, la winsorisation est fréquemment utilisée afin de traiter le problème des valeurs influentes. Dans le cas d’un sondage aléatoire simple stratifié, il existe deux méthodes permettant de choisir les seuils intervenant dans la winsorisation. L’article se décompose de la façon suivante. Une première partie rappelle les notations et la notion d’estimateur par winsorisation. La deuxième partie consiste à détailler les deux méthodes et à les étendre dans le cas d’un sondage poissonnien, puis à les comparer sur des jeux de données simulées et sur l’Enquête sur le Coût de la Main d’Oeuvre et la structure des salaires réalisée par l’INSEE.

    Date de diffusion : 2018-12-20

  • Articles et rapports : 12-001-X201800154925
    Description :

    Le présent article traite de l’inférence statistique sous un modèle de superpopulation en population finie quand on utilise des échantillons obtenus par échantillonnage d’ensembles ordonnés (EEO). Les échantillons sont construits sans remise. Nous montrons que la moyenne d’échantillon sous EEO est sans biais par rapport au modèle et présente une plus petite erreur de prédiction quadratique moyenne (EPQM) que la moyenne sous échantillonnage aléatoire simple (EAS). Partant d’un estimateur sans biais de l’EPQM, nous construisons aussi un intervalle de confiance de prédiction pour la moyenne de population. Une étude en simulation à petite échelle montre que cet estimateur est aussi bon qu’un estimateur sur échantillon aléatoire simple (EAS) quand l’information pour le classement est de qualité médiocre. Par ailleurs, cet estimateur est plus efficace que l’estimateur EAS quand la qualité de l’information de classement est bonne et que le ratio des coûts de l’obtention d’une unité sous EEO et sous EAS n’est pas très élevé. L’étude en simulation indique aussi que les probabilités de couverture des intervalles de prédiction sont très proches des probabilités de couverture nominales. La procédure d’inférence proposée est appliquée à un ensemble de données réel.

    Date de diffusion : 2018-06-21

  • Articles et rapports : 12-001-X201800154959
    Description :

    Les modèles pour petits domaines conçus pour traiter les données au niveau du domaine reposent habituellement sur l’hypothèse de normalité des effets aléatoires. Cette hypothèse ne tient pas toujours. L’article présente un nouveau modèle pour petits domaines dont les effets aléatoires suivent une loi t. En outre, la modélisation conjointe des moyennes et des variances de petit domaine est examinée. Il est montré que cette approche donne de meilleurs résultats que les autres méthodes.

    Date de diffusion : 2018-06-21

  • Articles et rapports : 12-001-X201800154963
    Description :

    Le cadre fondé sur l’échantillonnage probabiliste a joué un rôle dominant en recherche par sondage, parce qu’il fournit des outils mathématiques précis pour évaluer la variabilité d’échantillonnage. Toutefois, en raison de la hausse des coûts et de la baisse des taux de réponse, l’usage d’échantillons non probabilistes s’accroît, particulièrement dans le cas de populations générales, pour lesquelles le tirage d’échantillons à partir d’enquêtes en ligne devient de plus en plus économique et facile. Cependant, les échantillons non probabilistes posent un risque de biais de sélection dû à des différences d’accès et de degrés d’intérêt, ainsi qu’à d’autres facteurs. Le calage sur des totaux statistiques connus dans la population offre un moyen de réduire éventuellement l’effet du biais de sélection dans les échantillons non probabilistes. Ici, nous montrons que le calage assisté par un modèle en utilisant le LASSO adaptatif peut donner un estimateur convergent d’un total de population à condition qu’un sous-ensemble des variables explicatives réelles soit inclus dans le modèle de prédiction, permettant ainsi qu’un grand nombre de covariables possibles soit incluses sans risque de surajustement. Nous montrons que le calage assisté par un modèle en utilisant le LASSO adaptatif produit une meilleure estimation, pour ce qui est de l’erreur quadratique moyenne, que les méthodes concurrentes classiques, tels les estimateurs par la régression généralisée (GREG), quand un grand nombre de covariables sont nécessaires pour déterminer le modèle réel, sans vraiment qu’il y ait perte d’efficacité par rapport à la méthode GREG quand de plus petits modèles suffisent. Nous obtenons aussi des formules analytiques pour les estimateurs de variance des totaux de population, et comparons le comportement de ces estimateurs aux estimateurs bootstrap. Nous concluons par un exemple réel en utilisant des données provenant de la National Health Interview Survey.

    Date de diffusion : 2018-06-21

  • Articles et rapports : 11-626-X2017077
    Description :

    Le 13 avril 2017, le gouvernement du Canada a déposé le projet de loi de légalisation de la consommation récréative du cannabis pour les adultes. Cette décision aura une incidence directe sur le système statistique du Canada. Cet article d’Aperçus économiques vise à fournir des estimations expérimentales du volume de la consommation de cannabis, en se fondant sur des renseignements existants relatifs à la prévalence de la consommation de cannabis. Cet article présente les estimations expérimentales du nombre de tonnes de cannabis consommé par tranche d’âge au cours de la période allant de 1960 à 2015. Ces estimations expérimentales se fondent sur des données d’enquête de plusieurs sources, de techniques statistiques permettant de coupler les sources au cours du temps, et d’hypothèses relatives au comportement de consommation. Elles pourront faire l’objet de révisions à mesure que des sources de données améliorées ou supplémentaires deviennent disponibles.

    Date de diffusion : 2017-12-18
Références (4)

Références (4) ((4 résultats))

  • Enquêtes et programmes statistiques — Documentation : 98-306-X
    Description :

    Ce rapport donne une description des méthodes d'échantillonnage, de pondération et d'estimation utilisées pour le Recensement de la population de 2016. Il fournit les justifications opérationnelles et théoriques et présente les résultats des évaluations de ces méthodes.

    Date de diffusion : 2018-09-11

  • Enquêtes et programmes statistiques — Documentation : 91-528-X
    Description :

    Ce manuel offre des descriptions détaillées des sources de données et des méthodes utilisées par Statistique Canada pour produire des estimations de la population. Elles comportent : les estimations postcensitaires et intercensitaires de la population; la population de départ; les naissances et les décès; l'immigration; les émigrations; les résidents non permanents; la migration interprovinciale; les estimations infraprovinciales de la population; les estimations de la population selon l'âge, le sexe et l'état matrimonial et les estimations des familles de recensement. Un glossaire des termes courants est inclus à la fin du manuel, suivi de la notation normalisée utilisée.

    Auparavant, la documentation sur les changements méthodologiques pour le calcul des estimations était éparpillée dans plusieurs publications et documents d'information de Statistique Canada. Ce manuel offre aux utilisateurs de statistiques démographiques un recueil exhaustif des procédures actuelles utilisées par Statistique Canada pour élaborer des estimations de la population et des familles.

    Date de diffusion : 2015-11-17

  • Enquêtes et programmes statistiques — Documentation : 99-002-X
    Description : Ce rapport donne une description des méthodes d'échantillonnage et de pondération utilisées pour l’Enquête nationale auprès des ménages de 2011. Il fournit les justifications opérationnelles et théoriques et présente les résultats des études d'évaluation de ces méthodes.
    Date de diffusion : 2015-01-28

  • Enquêtes et programmes statistiques — Documentation : 92-568-X
    Description :

    Ce rapport donne une description des méthodes d'échantillonnage et de pondération utilisées pour le Recensement de 2006. Il fournit un historique de l'application de ces méthodes aux recensements du Canada ainsi que les fondements opérationnels et théoriques de ces méthodes, et présente les résultats des études d'évaluation.

    Date de diffusion : 2009-08-11
Date de modification :