Pondération et estimation

Aide à l'ordre
entrées

Résultats

Tout (55)

Tout (55) (20 à 30 de 55 résultats)

  • Articles et rapports : 75F0002M2022006
    Description :

    Le présent document technique décrit la méthode d'estimation des « autres nécessités » dans la MPC de 2018. Il donne un aperçu de la théorie et de l'application des techniques d'estimation des coûts des « autres nécessités » dans les seuils de pauvreté et déconstruit la composante des autres nécessités de la MPC de l'année de base 2018 afin d'en analyser la construction. L'objectif de ce document est de fournir une compréhension plus détaillée de la façon dont la composante des autres besoins de la MPC est estimée.

    Date de diffusion : 2022-12-08

  • Stats en bref : 11-001-X202231822683
    Description : Communiqué publié dans Le Quotidien – Bulletin de diffusion officielle de Statistique Canada
    Date de diffusion : 2022-11-14

  • Articles et rapports : 89-648-X2022001
    Description :

    Le présent rapport examine l'ampleur et la nature des problèmes d'attrition touchant l'Étude longitudinale et internationale des adultes (l'ELIA), et explore l'utilisation d'une stratégie d'ajustement et de calage des poids pour la non-réponse qui pourrait atténuer les effets de l'attrition sur les estimations de l'ELIA. L'étude porte sur les données des vagues 1 (2012) à 4 (2018) et utilise des exemples pratiques fondés sur des variables démographiques choisies pour illustrer la façon dont l'attrition doit être évaluée et traitée.

    Date de diffusion : 2022-11-14

  • Articles et rapports : 12-001-X202200100002
    Description :

    Nous considérons un modèle linéaire à effets aléatoires avec ordonnée à l’origine seulement pour l’analyse de données à partir d’un plan d’échantillonnage en grappes à deux degrés. Au premier degré, un échantillon aléatoire simple de grappes est tiré et au deuxième degré, un échantillon aléatoire simple d’unités élémentaires est prélevé dans chaque grappe sélectionnée. La variable de réponse est censée se composer d’un effet aléatoire au niveau de la grappe en plus d’un terme d’erreurs indépendant dont la variance est connue. Les objets de l’inférence sont la moyenne de la variable de résultat et la variance des effets aléatoires. Dans le cas d’un plan d’échantillonnage à deux degrés plus complexe, l’utilisation d’une approche fondée sur une fonction de vraisemblance composite par paire estimée présente des propriétés attrayantes. Notre objectif est d’utiliser notre cas plus simple pour comparer les résultats de l’inférence fondée sur la vraisemblance à ceux de l’inférence fondée sur une fonction de vraisemblance composite par paire qui est considérée comme une vraisemblance approximative, et en particulier comme une composante de la vraisemblance dans l’inférence bayésienne. Afin de fournir des intervalles de crédibilité ayant une couverture fréquentiste se rapprochant des valeurs nominales, la fonction de vraisemblance composite par paire et la densité a posteriori correspondante nécessitent une modification, comme un ajustement de la courbure. Au moyen d’études par simulations, nous étudions le rendement d’un ajustement proposé dans la littérature et concluons que ce dernier fonctionne bien pour la moyenne, mais fournit des intervalles de crédibilité pour la variance des effets aléatoires présentant un sous-couverture. Nous proposons des orientations futures possibles, y compris des prolongements du cas d’un plan d’échantillonnage complexe.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X202200100003
    Description :

    L’utilisation de données auxiliaires pour améliorer l’efficacité des estimateurs de totaux et de moyennes grâce à l’estimation par régression d’enquête assistée par un modèle a suscité un grand intérêt au cours de ces dernières années. Les estimateurs par la régression généralisée (ERG), basés sur un modèle de régression linéaire de travail, sont actuellement utilisés dans les enquêtes auprès d’établissements au sein de Statistique Canada et dans plusieurs autres organismes statistiques. Les estimateurs ERG utilisent des poids d’enquête communs à toutes les variables de l’étude et tiennent compte des totaux de population connus des variables auxiliaires. De plus en plus, de nombreuses variables auxiliaires sont disponibles, dont certaines peuvent être extérieures. Cela donne lieu des poids d’ERG fluctuants lorsque toutes les variables auxiliaires disponibles, y compris les interactions entre les variables catégorielles, sont utilisées dans le modèle de régression linéaire de travail. Par ailleurs, de nouvelles méthodes d’apprentissage automatique, comme les arbres de régression et les méthodes LASSO, sélectionnent automatiquement les variables auxiliaires significatives et donnent lieu à des poids non négatifs stables et à des gains d’efficacité possibles par rapport aux estimateurs ERG. Dans le présent article, une étude par simulations, basée sur un ensemble de données réelles d’une enquête réalisée auprès d’entreprises considérées comme la population cible, est menée pour étudier la performance relative des estimateurs ERG, des arbres de régression et des méthodes LASSO en matière d’efficacité des estimateurs et de propriétés des poids de régression connexes. Des scénarios d’échantillonnage probabiliste et d’échantillonnage non probabiliste sont étudiés.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X202200100004
    Description :

    Lorsque la taille de l’échantillon d’un domaine est faible, le fait d’emprunter des renseignements aux voisins est une technique d’estimation sur petits domaines qui permet d’obtenir des estimations plus fiables. L’un des modèles les plus connus en ce qui concerne l’estimation sur petits domaines est un modèle multinomial hiérarchique de Dirichlet pour les comptes multinomiaux. En raison des caractéristiques naturelles des données, il est pertinent d’émettre une hypothèse sur la restriction d’ordre unimodal dans le cas des espaces de paramètres. Dans notre application, l’indice de masse corporelle est plus susceptible de correspondre à un niveau de surpoids, ce qui signifie que la restriction d’ordre unimodal pourrait être raisonnable. La même restriction d’ordre unimodal pour tous les domaines pourrait être trop forte pour s’avérer dans certains cas. Pour accroître la souplesse, nous ajoutons une incertitude à la restriction d’ordre unimodal. Chaque domaine présentera des tendances unimodaux similaires, sans être identiques. Comme la restriction d’ordre intégrant de l’incertitude augmente la difficulté d’inférence, nous effectuons une comparaison avec les valeurs sommaires a posteriori et la pseudo-vraisemblance marginale logarithmique approximative.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X202200100009
    Description :

    La probabilité inverse, aussi connue en tant que l’estimateur de Horvitz-Thompson, est un outil de base de l’estimation pour une population finie. Même lorsque de l’information auxiliaire est disponible pour modéliser la variable d’intérêt, elle est utilisée pour estimer l’erreur du modèle. Dans la présente étude, l’estimateur de probabilité inverse est généralisé par l’introduction d’une matrice définie positive. L’estimateur de probabilité inverse habituel est un cas spécial de l’estimateur généralisé, dans lequel la matrice définie positive est la matrice identité. Étant donné que l’estimation par calage permet de chercher des poids qui sont proches des poids de probabilité inverse, elle peut également être généralisée pour permettre de chercher des poids qui sont proches de ceux de l’estimateur de probabilité inverse généralisé. Nous savons que le calage est optimal, car il atteint asymptotiquement la borne inférieure de Godambe-Joshi, et celle-ci a été obtenue à partir d’un modèle dépourvu de corrélation. Cette borne inférieure peut également être généralisée en vue de permettre des corrélations. En choisissant judicieusement la matrice définie positive qui généralise les estimateurs par calage, cette borne inférieure généralisée peut être atteinte de façon asymptotique. Bien souvent, il n’existe pas de formule analytique pour calculer les estimateurs généralisés. Toutefois, des exemples simples et clairs sont fournis dans la présente étude pour illustrer la façon dont les estimateurs généralisés tirent parti des corrélations. Cette simplicité s’obtient en supposant une corrélation de 1 entre certaines unités de la population. Ces estimateurs simples peuvent être utiles, même si cette corrélation est inférieure à 1. Des résultats de simulation sont utilisés pour comparer les estimateurs généralisés aux estimateurs ordinaires.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 75F0002M2022001
    Description :

    Les statistiques sur le revenu sont mises à jour périodiquement pour tenir compte des estimations de population les plus récentes dérivées après le recensement. Ainsi, avec la diffusion des données de 2020 de l’Enquête canadienne sur le revenu (ECR), Statistique Canada a révisé les estimations pour la période allant de 2012 à 2019 en utilisant les totaux des estimations de population fondées sur le Recensement de 2016. Le présent document fournit une comparaison entre les estimations révisées et non révisées pour des statistiques de revenu clés et une description des autres modifications apportées aux variables de l’ECR.

    Date de diffusion : 2022-03-23

  • Articles et rapports : 12-001-X202100200001
    Description :

    Le modèle de Fay-Herriot est souvent utilisé pour obtenir des estimations sur petits domaines. Ces estimations sont généralement plus efficaces que les estimations directes classiques. Afin d’évaluer les gains d’efficacité obtenus par les méthodes d’estimation sur petits domaines, on produit généralement des estimations de l’erreur quadratique moyenne fondée sur le modèle. Cependant, ces estimations ne permettent pas de tenir compte de toute la spécificité d’un domaine en particulier car elles font disparaître l’effet local en prenant une espérance par rapport au modèle. Une alternative consiste à estimer l’erreur quadratique moyenne fondée sur le plan de sondage des estimateurs sur petits domaines. Cette dernière est souvent plus attrayante du point de vue des utilisateurs. Il est cependant connu que les estimateurs de l’erreur quadratique moyenne fondée sur le plan de sondage peuvent être très instables, particulièrement pour les domaines qui contiennent peu d’unités échantillonnées. Dans cet article, nous proposons deux diagnostics locaux qui ont pour objectif de faire un choix entre le meilleur prédicteur empirique et l’estimateur direct pour un domaine en particulier. Nous trouvons d’abord un intervalle de valeurs de l’effet local tel que le meilleur prédicteur est plus efficace sous le plan que l’estimateur direct. Ensuite, nous considérons deux approches différentes pour évaluer s’il est plausible que l’effet local se trouve dans cet intervalle. Nous examinons nos diagnostics au moyen d’une étude par simulation. Nos résultats préliminaires semblent prometteurs quant à l’utilité de ces diagnostics pour choisir entre le meilleur prédicteur empirique et l’estimateur direct.

    Date de diffusion : 2022-01-06

  • Articles et rapports : 12-001-X202100200005
    Description :

    L’estimation de la variance est un problème difficile dans les enquêtes, car plusieurs facteurs non négligeables contribuent à l’erreur d’enquête totale, notamment l’échantillonnage et la non-réponse totale. Initialement conçue pour saisir la variance des statistiques non triviales à partir de données indépendantes et identiquement distribuées, la méthode bootstrap a depuis été adaptée de diverses façons pour tenir compte des éléments ou facteurs propres à l’enquête. Dans l’article, nous examinons l’une de ces variantes, le bootstrap avec remise. Nous considérons les enquêtes auprès des ménages, avec ou sans sous-échantillonnage de personnes. Nous rendons explicites les estimateurs de la variance que le bootstrap avec remise vise à reproduire. Nous expliquons comment le bootstrap peut servir à tenir compte de l’effet de l’échantillonnage, du traitement de la non-réponse et du calage sur l’erreur d’enquête totale. Par souci de clarté, les méthodes proposées sont illustrées au moyen d’un exemple traité en fil rouge. Elles sont évaluées dans le cadre d’une étude par simulations et appliquées au Panel Politique de la Ville (PPV) français. Deux macros SAS pour exécuter les méthodes bootstrap sont également élaborées.

    Date de diffusion : 2022-01-06
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (50)

Analyses (50) (0 à 10 de 50 résultats)

  • Stats en bref : 11-001-X202411338008
    Description : Communiqué publié dans Le Quotidien – Bulletin de diffusion officielle de Statistique Canada
    Date de diffusion : 2024-04-22

  • Articles et rapports : 18-001-X2024001
    Description : Cette étude applique l’estimation sur petits domaines (EPD) et un nouveau concept géographique appelé Zone de travail autonome (ZTA) à l'Enquête canadienne sur la situation des entreprises (ECSE) en mettant l'accent sur les opportunités de travail à distance sur les marchés du travail ruraux. Grâce à la modélisation EPD, nous avons estimé les proportions d'entreprises, classées par secteur industriel général (prestataires de services et producteurs de biens), qui offriraient principalement des opportunités de travail à distance à leur main-d'œuvre.
    Date de diffusion : 2024-04-22

  • Articles et rapports : 12-001-X202300200002
    Description : Il est essentiel de pouvoir quantifier l’exactitude (biais, variance) des résultats publiés dans les statistiques officielles. Dans ces dernières, les résultats sont presque toujours divisés en sous-populations selon une variable de classification, comme le revenu moyen par catégorie de niveau de scolarité. Ces résultats sont également appelés « statistiques de domaine ». Dans le présent article, nous nous limitons aux variables de classification binaire. En pratique, des erreurs de classification se produisent et contribuent au biais et à la variance des statistiques de domaine. Les méthodes analytiques et numériques servant actuellement à estimer cet effet présentent deux inconvénients. Le premier inconvénient est qu’elles exigent que les probabilités de classification erronée soient connues au préalable et le deuxième est que les estimations du biais et de la variance sont elles-mêmes biaisées. Dans le présent article, nous présentons une nouvelle méthode, un modèle de mélange gaussien estimé par un algorithme espérance-maximisation (EM) combiné à un bootstrap, appelé « méthode bootstrap EM ». Cette nouvelle méthode n’exige pas que les probabilités de classification erronée soient connues au préalable, bien qu’elle soit plus efficace quand on utilise un petit échantillon de vérification qui donne une valeur de départ pour les probabilités de classification erronée dans l’algorithme EM. Nous avons comparé le rendement de la nouvelle méthode et celui des méthodes numériques actuellement disponibles, à savoir la méthode bootstrap et la méthode SIMEX. Des études antérieures ont démontré que pour les paramètres non linéaires, le bootstrap donne de meilleurs résultats que les expressions analytiques. Pour presque toutes les conditions mises à l’essai, les estimations du biais et de la variance obtenues par la méthode bootstrap EM sont plus proches de leurs vraies valeurs que celles obtenues par les méthodes bootstrap et SIMEX. Nous terminons l’article par une discussion sur les résultats et d’éventuels prolongements de la méthode.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300200003
    Description : Nous étudions la prédiction sur petits domaines des paramètres généraux à partir de deux modèles pour les dénombrements au niveau de l’unité. Nous construisons des prédicteurs de paramètres, comme les quartiles, qui peuvent être des fonctions non linéaires de la variable réponse du modèle. Nous élaborons d’abord une procédure pour construire les meilleurs prédicteurs empiriques et les estimateurs de l’erreur quadratique moyenne des paramètres généraux dans un modèle Gamma-Poisson au niveau de l’unité. Nous utilisons ensuite un algorithme de rééchantillonnage préférentiel pour élaborer des prédicteurs pour un modèle linéaire mixte généralisé (MLMG) avec une distribution de la réponse de Poisson. Nous comparons les deux modèles au moyen d’une simulation et d’une analyse des données de l’Iowa Seat-Belt Use Survey (une enquête sur l’utilisation de la ceinture de sécurité dans l’État de l’Iowa).
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300200004
    Description : Nous présentons une nouvelle méthodologie pour réconcilier des estimations des totaux des superficies cultivées au niveau du comté à un total prédéfini au niveau de l’État soumis à des contraintes d’inégalité et à des variances aléatoires dans le modèle de Fay-Herriot. Pour la superficie ensemencée du National Agricultural Statistics Service (NASS), un organisme du ministère de l’Agriculture des États-Unis (USDA), il est nécessaire d’intégrer la contrainte selon laquelle les totaux estimés, dérivés de données d’enquête et d’autres données auxiliaires, ne sont pas inférieurs aux totaux administratifs de la superficie ensemencée préenregistrés par d’autres organismes du USDA, à l’exception de NASS. Ces totaux administratifs sont considérés comme fixes et connus, et cette exigence de cohérence supplémentaire ajoute à la complexité de la réconciliation des estimations au niveau du comté. Une analyse entièrement bayésienne du modèle de Fay-Herriot offre un moyen intéressant d’intégrer les contraintes d’inégalité et de réconciliation et de quantifier les incertitudes qui en résultent, mais l’échantillonnage à partir des densités a posteriori comprend une intégration difficile; des approximations raisonnables doivent être faites. Tout d’abord, nous décrivons un modèle à rétrécissement unique, qui rétrécit les moyennes lorsque l’on suppose que les variances sont connues. Ensuite, nous élargissons ce modèle pour tenir compte du rétrécissement double par l’emprunt d’information dans les moyennes et les variances. Ce modèle élargi comporte deux sources de variation supplémentaire; toutefois, comme nous rétrécissons à la fois les moyennes et les variances, ce second modèle devrait avoir un meilleur rendement sur le plan de la qualité de l’ajustement (fiabilité) et, possiblement, sur le plan de la précision. Les calculs sont difficiles pour les deux modèles, qui sont appliqués à des ensembles de données simulées dont les propriétés ressemblent à celles des cultures de maïs de l’Illinois.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300200012
    Description : Au cours des dernières décennies, de nombreuses façons différentes d’utiliser l’information auxiliaire ont enrichi la théorie et la pratique de l’échantillonnage. Jean-Claude Deville a contribué de manière importante à ces progrès. Mes commentaires permettent de retracer certaines des étapes qui ont conduit à une théorie importante pour l’utilisation de l’information auxiliaire : l’estimation par calage.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300200013
    Description : Jean-Claude Deville compte parmi les plus éminents chercheurs dans la théorie et la pratique des sondages. Ses travaux sur l’échantillonnage équilibré, l’échantillonnage indirect et le calage en particulier sont reconnus au niveau international et largement utilisés en statistique officielle. Il est également pionnier dans le domaine de l’analyse statistique des données fonctionnelles. Le présent article nous donne l’occasion de reconnaître l’immense travail qu’il a accompli, et de lui rendre hommage. Dans la première partie, nous évoquons brièvement la contribution de Jean-Claude à l’analyse statistique en composantes principales fonctionnelles. Nous détaillons également certaines extensions récentes de ses travaux au croisement des domaines de l’analyse statistique des données fonctionnelles et de la théorie des sondages. Dans la seconde partie, nous présentons une extension de son travail dans le domaine de l’échantillonnage indirect. Ces résultats de recherche sont motivés par des applications concrètes et illustrent l’influence de Jean-Claude sur notre travail de chercheuses.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300200014
    Description : Beaucoup de choses ont été écrites à propos de Jean-Claude Deville par la communauté statistique dans les hommages qui lui ont été rendus (voir Tillé, 2022a; Tillé, 2022b; Christine, 2022; Ardilly, 2022; et Matei, 2022) mais aussi par l’École nationale de la statistique et de l’administration économique (Ensae) et la Société française de statistique. Pascal Ardilly, David Haziza, Pierre Lavallée et Yves Tillé détaillent de façon très approfondie les apports de Jean-Claude Deville à la théorie des sondages. Pour lui rendre hommage, j’avais envie de mon côté d’évoquer l’apport de Jean-Claude Deville à la pratique plus quotidienne de la méthodologie pour tous les statisticiens de l’Institut national de la statistique et des études économiques (Insee) et du service de la statistique publique. Je m’appuie pour cela sur mon expérience professionnelle et tout particulièrement sur les quatre années (1992-1996) que j’ai passées à ses côtés au sein de l’Unité Méthodes Statistiques et des échanges que nous avons eus ensuite, en particulier dans les années 2000 sur le recensement en continu.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300200015
    Description : Cet article discute et commente l’article de Ardilly, Haziza, Lavallée et Tillé consacré à une présentation synoptique de l’œuvre de Jean-Claude Deville en théorie des sondages. Il apporte quelques éclairages sur le contexte, les applications et les utilisations des résultats de ses travaux et il montre comment ceux-ci se sont inscrits dans le métier de statisticien dans lequel Jean-Claude a eu une démarche d’« éclaireur ». Il évoque aussi d’autres aspects de sa carrière et de ses inventions créatrices.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300200016
    Description : Dans cette discussion, je présenterai quelques aspects complémentaires de trois grands domaines de la théorie des sondages développés ou étudiés par Jean-Claude Deville : le calage, l’échantillonnage équilibré et la méthode généralisée de partage des poids.
    Date de diffusion : 2024-01-03
Références (5)

Références (5) ((5 résultats))

  • Enquêtes et programmes statistiques — Documentation : 98-306-X
    Description :

    Ce rapport donne une description des méthodes d'échantillonnage, de pondération et d'estimation utilisées pour le Recensement de la population. Il fournit les justifications opérationnelles et théoriques et présente les résultats des évaluations de ces méthodes.

    Date de diffusion : 2023-10-04

  • Avis et consultations : 75F0002M2019006
    Description :

    En 2018, Statistique Canada a diffusé deux nouveaux tableaux de données présentant des estimations des taux d’imposition et de transfert effectifs des déclarants et des familles de recensement. Ces estimations sont tirées de la Banque de données administratives longitudinales. La publication fournit une description détaillée des méthodes utilisées pour produire les estimations des taux d’imposition et de transfert effectifs.

    Date de diffusion : 2019-04-16

  • Enquêtes et programmes statistiques — Documentation : 91-528-X
    Description :

    Ce manuel offre des descriptions détaillées des sources de données et des méthodes utilisées par Statistique Canada pour produire des estimations de la population. Elles comportent : les estimations postcensitaires et intercensitaires de la population; la population de départ; les naissances et les décès; l'immigration; les émigrations; les résidents non permanents; la migration interprovinciale; les estimations infraprovinciales de la population; les estimations de la population selon l'âge, le sexe et l'état matrimonial et les estimations des familles de recensement. Un glossaire des termes courants est inclus à la fin du manuel, suivi de la notation normalisée utilisée.

    Auparavant, la documentation sur les changements méthodologiques pour le calcul des estimations était éparpillée dans plusieurs publications et documents d'information de Statistique Canada. Ce manuel offre aux utilisateurs de statistiques démographiques un recueil exhaustif des procédures actuelles utilisées par Statistique Canada pour élaborer des estimations de la population et des familles.

    Date de diffusion : 2015-11-17

  • Enquêtes et programmes statistiques — Documentation : 99-002-X
    Description : Ce rapport donne une description des méthodes d'échantillonnage et de pondération utilisées pour l’Enquête nationale auprès des ménages de 2011. Il fournit les justifications opérationnelles et théoriques et présente les résultats des études d'évaluation de ces méthodes.
    Date de diffusion : 2015-01-28

  • Enquêtes et programmes statistiques — Documentation : 92-568-X
    Description :

    Ce rapport donne une description des méthodes d'échantillonnage et de pondération utilisées pour le Recensement de 2006. Il fournit un historique de l'application de ces méthodes aux recensements du Canada ainsi que les fondements opérationnels et théoriques de ces méthodes, et présente les résultats des études d'évaluation.

    Date de diffusion : 2009-08-11
Date de modification :