Pondération et estimation

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Géographie

2 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (541)

Tout (541) (0 à 10 de 541 résultats)

  • Articles et rapports : 12-001-X202200100002
    Description :

    Nous considérons un modèle linéaire à effets aléatoires avec ordonnée à l’origine seulement pour l’analyse de données à partir d’un plan d’échantillonnage en grappes à deux degrés. Au premier degré, un échantillon aléatoire simple de grappes est tiré et au deuxième degré, un échantillon aléatoire simple d’unités élémentaires est prélevé dans chaque grappe sélectionnée. La variable de réponse est censée se composer d’un effet aléatoire au niveau de la grappe en plus d’un terme d’erreurs indépendant dont la variance est connue. Les objets de l’inférence sont la moyenne de la variable de résultat et la variance des effets aléatoires. Dans le cas d’un plan d’échantillonnage à deux degrés plus complexe, l’utilisation d’une approche fondée sur une fonction de vraisemblance composite par paire estimée présente des propriétés attrayantes. Notre objectif est d’utiliser notre cas plus simple pour comparer les résultats de l’inférence fondée sur la vraisemblance à ceux de l’inférence fondée sur une fonction de vraisemblance composite par paire qui est considérée comme une vraisemblance approximative, et en particulier comme une composante de la vraisemblance dans l’inférence bayésienne. Afin de fournir des intervalles de crédibilité ayant une couverture fréquentiste se rapprochant des valeurs nominales, la fonction de vraisemblance composite par paire et la densité a posteriori correspondante nécessitent une modification, comme un ajustement de la courbure. Au moyen d’études par simulations, nous étudions le rendement d’un ajustement proposé dans la littérature et concluons que ce dernier fonctionne bien pour la moyenne, mais fournit des intervalles de crédibilité pour la variance des effets aléatoires présentant un sous-couverture. Nous proposons des orientations futures possibles, y compris des prolongements du cas d’un plan d’échantillonnage complexe.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X202200100003
    Description :

    L’utilisation de données auxiliaires pour améliorer l’efficacité des estimateurs de totaux et de moyennes grâce à l’estimation par régression d’enquête assistée par un modèle a suscité un grand intérêt au cours de ces dernières années. Les estimateurs par la régression généralisée (ERG), basés sur un modèle de régression linéaire de travail, sont actuellement utilisés dans les enquêtes auprès d’établissements au sein de Statistique Canada et dans plusieurs autres organismes statistiques. Les estimateurs ERG utilisent des poids d’enquête communs à toutes les variables de l’étude et tiennent compte des totaux de population connus des variables auxiliaires. De plus en plus, de nombreuses variables auxiliaires sont disponibles, dont certaines peuvent être extérieures. Cela donne lieu des poids d’ERG fluctuants lorsque toutes les variables auxiliaires disponibles, y compris les interactions entre les variables catégorielles, sont utilisées dans le modèle de régression linéaire de travail. Par ailleurs, de nouvelles méthodes d’apprentissage automatique, comme les arbres de régression et les méthodes LASSO, sélectionnent automatiquement les variables auxiliaires significatives et donnent lieu à des poids non négatifs stables et à des gains d’efficacité possibles par rapport aux estimateurs ERG. Dans le présent article, une étude par simulations, basée sur un ensemble de données réelles d’une enquête réalisée auprès d’entreprises considérées comme la population cible, est menée pour étudier la performance relative des estimateurs ERG, des arbres de régression et des méthodes LASSO en matière d’efficacité des estimateurs et de propriétés des poids de régression connexes. Des scénarios d’échantillonnage probabiliste et d’échantillonnage non probabiliste sont étudiés.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X202200100004
    Description :

    Lorsque la taille de l’échantillon d’un domaine est faible, le fait d’emprunter des renseignements aux voisins est une technique d’estimation sur petits domaines qui permet d’obtenir des estimations plus fiables. L’un des modèles les plus connus en ce qui concerne l’estimation sur petits domaines est un modèle multinomial hiérarchique de Dirichlet pour les comptes multinomiaux. En raison des caractéristiques naturelles des données, il est pertinent d’émettre une hypothèse sur la restriction d’ordre unimodal dans le cas des espaces de paramètres. Dans notre application, l’indice de masse corporelle est plus susceptible de correspondre à un niveau de surpoids, ce qui signifie que la restriction d’ordre unimodal pourrait être raisonnable. La même restriction d’ordre unimodal pour tous les domaines pourrait être trop forte pour s’avérer dans certains cas. Pour accroître la souplesse, nous ajoutons une incertitude à la restriction d’ordre unimodal. Chaque domaine présentera des tendances unimodaux similaires, sans être identiques. Comme la restriction d’ordre intégrant de l’incertitude augmente la difficulté d’inférence, nous effectuons une comparaison avec les valeurs sommaires a posteriori et la pseudo-vraisemblance marginale logarithmique approximative.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X202200100009
    Description :

    La probabilité inverse, aussi connue en tant que l’estimateur de Horvitz-Thompson, est un outil de base de l’estimation pour une population finie. Même lorsque de l’information auxiliaire est disponible pour modéliser la variable d’intérêt, elle est utilisée pour estimer l’erreur du modèle. Dans la présente étude, l’estimateur de probabilité inverse est généralisé par l’introduction d’une matrice définie positive. L’estimateur de probabilité inverse habituel est un cas spécial de l’estimateur généralisé, dans lequel la matrice définie positive est la matrice identité. Étant donné que l’estimation par calage permet de chercher des poids qui sont proches des poids de probabilité inverse, elle peut également être généralisée pour permettre de chercher des poids qui sont proches de ceux de l’estimateur de probabilité inverse généralisé. Nous savons que le calage est optimal, car il atteint asymptotiquement la borne inférieure de Godambe-Joshi, et celle-ci a été obtenue à partir d’un modèle dépourvu de corrélation. Cette borne inférieure peut également être généralisée en vue de permettre des corrélations. En choisissant judicieusement la matrice définie positive qui généralise les estimateurs par calage, cette borne inférieure généralisée peut être atteinte de façon asymptotique. Bien souvent, il n’existe pas de formule analytique pour calculer les estimateurs généralisés. Toutefois, des exemples simples et clairs sont fournis dans la présente étude pour illustrer la façon dont les estimateurs généralisés tirent parti des corrélations. Cette simplicité s’obtient en supposant une corrélation de 1 entre certaines unités de la population. Ces estimateurs simples peuvent être utiles, même si cette corrélation est inférieure à 1. Des résultats de simulation sont utilisés pour comparer les estimateurs généralisés aux estimateurs ordinaires.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 75F0002M2022001
    Description :

    Les statistiques sur le revenu sont mises à jour périodiquement pour tenir compte des estimations de population les plus récentes dérivées après le recensement. Ainsi, avec la diffusion des données de 2020 de l’Enquête canadienne sur le revenu (ECR), Statistique Canada a révisé les estimations pour la période allant de 2012 à 2019 en utilisant les totaux des estimations de population fondées sur le Recensement de 2016. Le présent document fournit une comparaison entre les estimations révisées et non révisées pour des statistiques de revenu clés et une description des autres modifications apportées aux variables de l’ECR.

    Date de diffusion : 2022-03-23

  • Articles et rapports : 12-001-X202100200001
    Description :

    Le modèle de Fay-Herriot est souvent utilisé pour obtenir des estimations sur petits domaines. Ces estimations sont généralement plus efficaces que les estimations directes classiques. Afin d’évaluer les gains d’efficacité obtenus par les méthodes d’estimation sur petits domaines, on produit généralement des estimations de l’erreur quadratique moyenne fondée sur le modèle. Cependant, ces estimations ne permettent pas de tenir compte de toute la spécificité d’un domaine en particulier car elles font disparaître l’effet local en prenant une espérance par rapport au modèle. Une alternative consiste à estimer l’erreur quadratique moyenne fondée sur le plan de sondage des estimateurs sur petits domaines. Cette dernière est souvent plus attrayante du point de vue des utilisateurs. Il est cependant connu que les estimateurs de l’erreur quadratique moyenne fondée sur le plan de sondage peuvent être très instables, particulièrement pour les domaines qui contiennent peu d’unités échantillonnées. Dans cet article, nous proposons deux diagnostics locaux qui ont pour objectif de faire un choix entre le meilleur prédicteur empirique et l’estimateur direct pour un domaine en particulier. Nous trouvons d’abord un intervalle de valeurs de l’effet local tel que le meilleur prédicteur est plus efficace sous le plan que l’estimateur direct. Ensuite, nous considérons deux approches différentes pour évaluer s’il est plausible que l’effet local se trouve dans cet intervalle. Nous examinons nos diagnostics au moyen d’une étude par simulation. Nos résultats préliminaires semblent prometteurs quant à l’utilité de ces diagnostics pour choisir entre le meilleur prédicteur empirique et l’estimateur direct.

    Date de diffusion : 2022-01-06

  • Articles et rapports : 12-001-X202100200005
    Description :

    L’estimation de la variance est un problème difficile dans les enquêtes, car plusieurs facteurs non négligeables contribuent à l’erreur d’enquête totale, notamment l’échantillonnage et la non-réponse totale. Initialement conçue pour saisir la variance des statistiques non triviales à partir de données indépendantes et identiquement distribuées, la méthode bootstrap a depuis été adaptée de diverses façons pour tenir compte des éléments ou facteurs propres à l’enquête. Dans l’article, nous examinons l’une de ces variantes, le bootstrap avec remise. Nous considérons les enquêtes auprès des ménages, avec ou sans sous-échantillonnage de personnes. Nous rendons explicites les estimateurs de la variance que le bootstrap avec remise vise à reproduire. Nous expliquons comment le bootstrap peut servir à tenir compte de l’effet de l’échantillonnage, du traitement de la non-réponse et du calage sur l’erreur d’enquête totale. Par souci de clarté, les méthodes proposées sont illustrées au moyen d’un exemple traité en fil rouge. Elles sont évaluées dans le cadre d’une étude par simulations et appliquées au Panel Politique de la Ville (PPV) français. Deux macros SAS pour exécuter les méthodes bootstrap sont également élaborées.

    Date de diffusion : 2022-01-06

  • Articles et rapports : 12-001-X202100200006
    Description :

    Le calage fondé sur l’échantillon se produit quand les poids d’une enquête sont calés pour contrôler les totaux aléatoires, au lieu de représenter les totaux fixes au niveau de la population. Les totaux de contrôle peuvent être estimés à partir de différentes phases de la même enquête ou d’une autre enquête. En cas de calage fondé sur l’échantillon, pour que l’estimation de la variance soit valide, il est nécessaire de tenir compte de la contribution de l’erreur due à l’estimation des totaux de contrôle. Nous proposons une nouvelle méthode d’estimation de la variance qui utilise directement les poids de rééchantillonnage de deux enquêtes, dont une sert à fournir des totaux de contrôle pour le calage des autres poids d’enquête. Aucune restriction n’est établie quant à la nature des deux méthodes de rééchantillonnage et il n’est pas nécessaire de calculer d’estimation de la variance-covariance, ce qui simplifie la mise en œuvre pratique de la méthode proposée. Nous fournissons la description générale de la méthode utilisée pour les enquêtes comportant deux méthodes de rééchantillonnage arbitraire avec un nombre de répliques différent. Il est démontré que l’estimateur de la variance obtenu est convergent pour la variance asymptotique de l’estimateur calé, quand le calage est effectué au moyen de l’estimation par la régression ou la méthode itérative du quotient (raking). La méthode est illustrée dans une application réelle, dans laquelle il faut harmoniser la composition démographique de deux enquêtes pour améliorer la comparabilité des estimations de l’enquête.

    Date de diffusion : 2022-01-06

  • Articles et rapports : 12-001-X202100200007
    Description :

    Nous considérons ici le modèle d’estimation sur petits domaines de Fay-Herriot. Nous nous intéressons en particulier à l’incidence du lissage et de la modélisation de la variance d’échantillonnage sur les estimations par modèle. Nous présentons des méthodes permettant de lisser et de modéliser les variances d’échantillonnage et appliquons les modèles proposés à une analyse de données réelles. Nos résultats font voir qu’un lissage de variance d’échantillonnage est de nature à accroître l’efficacité et la précision de l’estimateur par modèle. Dans une modélisation de variance d’échantillonnage, les modèles hiérarchiques bayésiens de You (2016) et de Sugasawa, Tamae et Kubokawa (2017) améliorent tous aussi bien les estimations d’enquête directes.

    Date de diffusion : 2022-01-06

  • Articles et rapports : 12-001-X202100100001
    Description :

    Dans un article précédent, nous avons élaboré un modèle pour effectuer une inférence sur des proportions de petits domaines en cas de biais de sélection dans lequel les réponses binaires et les probabilités de sélection sont corrélées. Il s’agit du modèle de sélection non ignorable homogène; une sélection non ignorable signifie que les probabilités de sélection et les réponses binaires sont corrélées. Il a été montré que le modèle de sélection non ignorable homogène donne de meilleurs résultats qu’un modèle de sélection ignorable de référence. Toutefois, l’une des limites du modèle de sélection non ignorable homogène réside dans le fait que les distributions des probabilités de sélection sont supposées identiques dans tous les domaines. C’est pourquoi nous introduisons un modèle plus général, le modèle de sélection non ignorable hétérogène, dans lequel les probabilités de sélection ne sont pas distribuées identiquement dans tous les domaines. Nous avons utilisé des méthodes de Monte Carlo par chaînes de Markov pour ajuster les trois modèles. Nous illustrons notre méthodologie et comparons nos modèles à l’aide d’un exemple sur la limitation d’activité sévère de la U.S. National Health Interview Survey (Enquête nationale sur la santé réalisée par interviews aux États-Unis). Nous réalisons également une étude par simulations pour démontrer que notre modèle de sélection non ignorable hétérogène est nécessaire en présence d’un biais de sélection modéré ou fort.

    Date de diffusion : 2021-06-24
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (514)

Analyses (514) (0 à 10 de 514 résultats)

  • Articles et rapports : 12-001-X202200100002
    Description :

    Nous considérons un modèle linéaire à effets aléatoires avec ordonnée à l’origine seulement pour l’analyse de données à partir d’un plan d’échantillonnage en grappes à deux degrés. Au premier degré, un échantillon aléatoire simple de grappes est tiré et au deuxième degré, un échantillon aléatoire simple d’unités élémentaires est prélevé dans chaque grappe sélectionnée. La variable de réponse est censée se composer d’un effet aléatoire au niveau de la grappe en plus d’un terme d’erreurs indépendant dont la variance est connue. Les objets de l’inférence sont la moyenne de la variable de résultat et la variance des effets aléatoires. Dans le cas d’un plan d’échantillonnage à deux degrés plus complexe, l’utilisation d’une approche fondée sur une fonction de vraisemblance composite par paire estimée présente des propriétés attrayantes. Notre objectif est d’utiliser notre cas plus simple pour comparer les résultats de l’inférence fondée sur la vraisemblance à ceux de l’inférence fondée sur une fonction de vraisemblance composite par paire qui est considérée comme une vraisemblance approximative, et en particulier comme une composante de la vraisemblance dans l’inférence bayésienne. Afin de fournir des intervalles de crédibilité ayant une couverture fréquentiste se rapprochant des valeurs nominales, la fonction de vraisemblance composite par paire et la densité a posteriori correspondante nécessitent une modification, comme un ajustement de la courbure. Au moyen d’études par simulations, nous étudions le rendement d’un ajustement proposé dans la littérature et concluons que ce dernier fonctionne bien pour la moyenne, mais fournit des intervalles de crédibilité pour la variance des effets aléatoires présentant un sous-couverture. Nous proposons des orientations futures possibles, y compris des prolongements du cas d’un plan d’échantillonnage complexe.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X202200100003
    Description :

    L’utilisation de données auxiliaires pour améliorer l’efficacité des estimateurs de totaux et de moyennes grâce à l’estimation par régression d’enquête assistée par un modèle a suscité un grand intérêt au cours de ces dernières années. Les estimateurs par la régression généralisée (ERG), basés sur un modèle de régression linéaire de travail, sont actuellement utilisés dans les enquêtes auprès d’établissements au sein de Statistique Canada et dans plusieurs autres organismes statistiques. Les estimateurs ERG utilisent des poids d’enquête communs à toutes les variables de l’étude et tiennent compte des totaux de population connus des variables auxiliaires. De plus en plus, de nombreuses variables auxiliaires sont disponibles, dont certaines peuvent être extérieures. Cela donne lieu des poids d’ERG fluctuants lorsque toutes les variables auxiliaires disponibles, y compris les interactions entre les variables catégorielles, sont utilisées dans le modèle de régression linéaire de travail. Par ailleurs, de nouvelles méthodes d’apprentissage automatique, comme les arbres de régression et les méthodes LASSO, sélectionnent automatiquement les variables auxiliaires significatives et donnent lieu à des poids non négatifs stables et à des gains d’efficacité possibles par rapport aux estimateurs ERG. Dans le présent article, une étude par simulations, basée sur un ensemble de données réelles d’une enquête réalisée auprès d’entreprises considérées comme la population cible, est menée pour étudier la performance relative des estimateurs ERG, des arbres de régression et des méthodes LASSO en matière d’efficacité des estimateurs et de propriétés des poids de régression connexes. Des scénarios d’échantillonnage probabiliste et d’échantillonnage non probabiliste sont étudiés.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X202200100004
    Description :

    Lorsque la taille de l’échantillon d’un domaine est faible, le fait d’emprunter des renseignements aux voisins est une technique d’estimation sur petits domaines qui permet d’obtenir des estimations plus fiables. L’un des modèles les plus connus en ce qui concerne l’estimation sur petits domaines est un modèle multinomial hiérarchique de Dirichlet pour les comptes multinomiaux. En raison des caractéristiques naturelles des données, il est pertinent d’émettre une hypothèse sur la restriction d’ordre unimodal dans le cas des espaces de paramètres. Dans notre application, l’indice de masse corporelle est plus susceptible de correspondre à un niveau de surpoids, ce qui signifie que la restriction d’ordre unimodal pourrait être raisonnable. La même restriction d’ordre unimodal pour tous les domaines pourrait être trop forte pour s’avérer dans certains cas. Pour accroître la souplesse, nous ajoutons une incertitude à la restriction d’ordre unimodal. Chaque domaine présentera des tendances unimodaux similaires, sans être identiques. Comme la restriction d’ordre intégrant de l’incertitude augmente la difficulté d’inférence, nous effectuons une comparaison avec les valeurs sommaires a posteriori et la pseudo-vraisemblance marginale logarithmique approximative.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X202200100009
    Description :

    La probabilité inverse, aussi connue en tant que l’estimateur de Horvitz-Thompson, est un outil de base de l’estimation pour une population finie. Même lorsque de l’information auxiliaire est disponible pour modéliser la variable d’intérêt, elle est utilisée pour estimer l’erreur du modèle. Dans la présente étude, l’estimateur de probabilité inverse est généralisé par l’introduction d’une matrice définie positive. L’estimateur de probabilité inverse habituel est un cas spécial de l’estimateur généralisé, dans lequel la matrice définie positive est la matrice identité. Étant donné que l’estimation par calage permet de chercher des poids qui sont proches des poids de probabilité inverse, elle peut également être généralisée pour permettre de chercher des poids qui sont proches de ceux de l’estimateur de probabilité inverse généralisé. Nous savons que le calage est optimal, car il atteint asymptotiquement la borne inférieure de Godambe-Joshi, et celle-ci a été obtenue à partir d’un modèle dépourvu de corrélation. Cette borne inférieure peut également être généralisée en vue de permettre des corrélations. En choisissant judicieusement la matrice définie positive qui généralise les estimateurs par calage, cette borne inférieure généralisée peut être atteinte de façon asymptotique. Bien souvent, il n’existe pas de formule analytique pour calculer les estimateurs généralisés. Toutefois, des exemples simples et clairs sont fournis dans la présente étude pour illustrer la façon dont les estimateurs généralisés tirent parti des corrélations. Cette simplicité s’obtient en supposant une corrélation de 1 entre certaines unités de la population. Ces estimateurs simples peuvent être utiles, même si cette corrélation est inférieure à 1. Des résultats de simulation sont utilisés pour comparer les estimateurs généralisés aux estimateurs ordinaires.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 75F0002M2022001
    Description :

    Les statistiques sur le revenu sont mises à jour périodiquement pour tenir compte des estimations de population les plus récentes dérivées après le recensement. Ainsi, avec la diffusion des données de 2020 de l’Enquête canadienne sur le revenu (ECR), Statistique Canada a révisé les estimations pour la période allant de 2012 à 2019 en utilisant les totaux des estimations de population fondées sur le Recensement de 2016. Le présent document fournit une comparaison entre les estimations révisées et non révisées pour des statistiques de revenu clés et une description des autres modifications apportées aux variables de l’ECR.

    Date de diffusion : 2022-03-23

  • Articles et rapports : 12-001-X202100200001
    Description :

    Le modèle de Fay-Herriot est souvent utilisé pour obtenir des estimations sur petits domaines. Ces estimations sont généralement plus efficaces que les estimations directes classiques. Afin d’évaluer les gains d’efficacité obtenus par les méthodes d’estimation sur petits domaines, on produit généralement des estimations de l’erreur quadratique moyenne fondée sur le modèle. Cependant, ces estimations ne permettent pas de tenir compte de toute la spécificité d’un domaine en particulier car elles font disparaître l’effet local en prenant une espérance par rapport au modèle. Une alternative consiste à estimer l’erreur quadratique moyenne fondée sur le plan de sondage des estimateurs sur petits domaines. Cette dernière est souvent plus attrayante du point de vue des utilisateurs. Il est cependant connu que les estimateurs de l’erreur quadratique moyenne fondée sur le plan de sondage peuvent être très instables, particulièrement pour les domaines qui contiennent peu d’unités échantillonnées. Dans cet article, nous proposons deux diagnostics locaux qui ont pour objectif de faire un choix entre le meilleur prédicteur empirique et l’estimateur direct pour un domaine en particulier. Nous trouvons d’abord un intervalle de valeurs de l’effet local tel que le meilleur prédicteur est plus efficace sous le plan que l’estimateur direct. Ensuite, nous considérons deux approches différentes pour évaluer s’il est plausible que l’effet local se trouve dans cet intervalle. Nous examinons nos diagnostics au moyen d’une étude par simulation. Nos résultats préliminaires semblent prometteurs quant à l’utilité de ces diagnostics pour choisir entre le meilleur prédicteur empirique et l’estimateur direct.

    Date de diffusion : 2022-01-06

  • Articles et rapports : 12-001-X202100200005
    Description :

    L’estimation de la variance est un problème difficile dans les enquêtes, car plusieurs facteurs non négligeables contribuent à l’erreur d’enquête totale, notamment l’échantillonnage et la non-réponse totale. Initialement conçue pour saisir la variance des statistiques non triviales à partir de données indépendantes et identiquement distribuées, la méthode bootstrap a depuis été adaptée de diverses façons pour tenir compte des éléments ou facteurs propres à l’enquête. Dans l’article, nous examinons l’une de ces variantes, le bootstrap avec remise. Nous considérons les enquêtes auprès des ménages, avec ou sans sous-échantillonnage de personnes. Nous rendons explicites les estimateurs de la variance que le bootstrap avec remise vise à reproduire. Nous expliquons comment le bootstrap peut servir à tenir compte de l’effet de l’échantillonnage, du traitement de la non-réponse et du calage sur l’erreur d’enquête totale. Par souci de clarté, les méthodes proposées sont illustrées au moyen d’un exemple traité en fil rouge. Elles sont évaluées dans le cadre d’une étude par simulations et appliquées au Panel Politique de la Ville (PPV) français. Deux macros SAS pour exécuter les méthodes bootstrap sont également élaborées.

    Date de diffusion : 2022-01-06

  • Articles et rapports : 12-001-X202100200006
    Description :

    Le calage fondé sur l’échantillon se produit quand les poids d’une enquête sont calés pour contrôler les totaux aléatoires, au lieu de représenter les totaux fixes au niveau de la population. Les totaux de contrôle peuvent être estimés à partir de différentes phases de la même enquête ou d’une autre enquête. En cas de calage fondé sur l’échantillon, pour que l’estimation de la variance soit valide, il est nécessaire de tenir compte de la contribution de l’erreur due à l’estimation des totaux de contrôle. Nous proposons une nouvelle méthode d’estimation de la variance qui utilise directement les poids de rééchantillonnage de deux enquêtes, dont une sert à fournir des totaux de contrôle pour le calage des autres poids d’enquête. Aucune restriction n’est établie quant à la nature des deux méthodes de rééchantillonnage et il n’est pas nécessaire de calculer d’estimation de la variance-covariance, ce qui simplifie la mise en œuvre pratique de la méthode proposée. Nous fournissons la description générale de la méthode utilisée pour les enquêtes comportant deux méthodes de rééchantillonnage arbitraire avec un nombre de répliques différent. Il est démontré que l’estimateur de la variance obtenu est convergent pour la variance asymptotique de l’estimateur calé, quand le calage est effectué au moyen de l’estimation par la régression ou la méthode itérative du quotient (raking). La méthode est illustrée dans une application réelle, dans laquelle il faut harmoniser la composition démographique de deux enquêtes pour améliorer la comparabilité des estimations de l’enquête.

    Date de diffusion : 2022-01-06

  • Articles et rapports : 12-001-X202100200007
    Description :

    Nous considérons ici le modèle d’estimation sur petits domaines de Fay-Herriot. Nous nous intéressons en particulier à l’incidence du lissage et de la modélisation de la variance d’échantillonnage sur les estimations par modèle. Nous présentons des méthodes permettant de lisser et de modéliser les variances d’échantillonnage et appliquons les modèles proposés à une analyse de données réelles. Nos résultats font voir qu’un lissage de variance d’échantillonnage est de nature à accroître l’efficacité et la précision de l’estimateur par modèle. Dans une modélisation de variance d’échantillonnage, les modèles hiérarchiques bayésiens de You (2016) et de Sugasawa, Tamae et Kubokawa (2017) améliorent tous aussi bien les estimations d’enquête directes.

    Date de diffusion : 2022-01-06

  • Articles et rapports : 12-001-X202100100001
    Description :

    Dans un article précédent, nous avons élaboré un modèle pour effectuer une inférence sur des proportions de petits domaines en cas de biais de sélection dans lequel les réponses binaires et les probabilités de sélection sont corrélées. Il s’agit du modèle de sélection non ignorable homogène; une sélection non ignorable signifie que les probabilités de sélection et les réponses binaires sont corrélées. Il a été montré que le modèle de sélection non ignorable homogène donne de meilleurs résultats qu’un modèle de sélection ignorable de référence. Toutefois, l’une des limites du modèle de sélection non ignorable homogène réside dans le fait que les distributions des probabilités de sélection sont supposées identiques dans tous les domaines. C’est pourquoi nous introduisons un modèle plus général, le modèle de sélection non ignorable hétérogène, dans lequel les probabilités de sélection ne sont pas distribuées identiquement dans tous les domaines. Nous avons utilisé des méthodes de Monte Carlo par chaînes de Markov pour ajuster les trois modèles. Nous illustrons notre méthodologie et comparons nos modèles à l’aide d’un exemple sur la limitation d’activité sévère de la U.S. National Health Interview Survey (Enquête nationale sur la santé réalisée par interviews aux États-Unis). Nous réalisons également une étude par simulations pour démontrer que notre modèle de sélection non ignorable hétérogène est nécessaire en présence d’un biais de sélection modéré ou fort.

    Date de diffusion : 2021-06-24
Références (27)

Références (27) (0 à 10 de 27 résultats)

  • Avis et consultations : 75F0002M2019006
    Description :

    En 2018, Statistique Canada a diffusé deux nouveaux tableaux de données présentant des estimations des taux d’imposition et de transfert effectifs des déclarants et des familles de recensement. Ces estimations sont tirées de la Banque de données administratives longitudinales. La publication fournit une description détaillée des méthodes utilisées pour produire les estimations des taux d’imposition et de transfert effectifs.

    Date de diffusion : 2019-04-16

  • Enquêtes et programmes statistiques — Documentation : 98-306-X
    Description :

    Ce rapport donne une description des méthodes d'échantillonnage, de pondération et d'estimation utilisées pour le Recensement de la population. Il fournit les justifications opérationnelles et théoriques et présente les résultats des évaluations de ces méthodes.

    Date de diffusion : 2018-09-11

  • Enquêtes et programmes statistiques — Documentation : 75F0002M2015003
    Description :

    Cette note porte sur les estimations révisées du revenu tirées de l’Enquête sur la dynamique du travail et du revenu (EDTR). Les révisions aux estimations de l’EDTR permettent de comparer les résultats de l’Enquête canadienne sur le revenu (ECR) à ceux des années précédentes puisqu’elles offrent une solution aux problèmes associés aux différences méthodologiques entre l’EDTR et l’ECR.

    Date de diffusion : 2015-12-17

  • Enquêtes et programmes statistiques — Documentation : 91-528-X
    Description :

    Ce manuel offre des descriptions détaillées des sources de données et des méthodes utilisées par Statistique Canada pour produire des estimations de la population. Elles comportent : les estimations postcensitaires et intercensitaires de la population; la population de départ; les naissances et les décès; l'immigration; les émigrations; les résidents non permanents; la migration interprovinciale; les estimations infraprovinciales de la population; les estimations de la population selon l'âge, le sexe et l'état matrimonial et les estimations des familles de recensement. Un glossaire des termes courants est inclus à la fin du manuel, suivi de la notation normalisée utilisée.

    Auparavant, la documentation sur les changements méthodologiques pour le calcul des estimations était éparpillée dans plusieurs publications et documents d'information de Statistique Canada. Ce manuel offre aux utilisateurs de statistiques démographiques un recueil exhaustif des procédures actuelles utilisées par Statistique Canada pour élaborer des estimations de la population et des familles.

    Date de diffusion : 2015-11-17

  • Enquêtes et programmes statistiques — Documentation : 13-605-X201500414166
    Description :

    Estimations de l’économie souterraine par province et territoire pour la période 2007 à 2012 sont maintenant disponibles pour la première fois. L’objet de cette note technique est d’expliquer comment la méthodologie utilisée afin de calculer les estimations de l’activité économique souterraine à la borne supérieure pour les provinces et les territoires diffère de celle utilisée afin de calculer les estimations nationales.

    Date de diffusion : 2015-04-29

  • Enquêtes et programmes statistiques — Documentation : 99-002-X2011001
    Description :

    Ce rapport donne une description des méthodes d'échantillonnage et de pondération utilisées pour l’Enquête nationale auprès des ménages de 2011. Il fournit les justifications opérationnelles et théoriques et présente les résultats des études d'évaluation de ces méthodes.

    Date de diffusion : 2015-01-28

  • Enquêtes et programmes statistiques — Documentation : 99-002-X
    Description : Ce rapport donne une description des méthodes d'échantillonnage et de pondération utilisées pour l’Enquête nationale auprès des ménages de 2011. Il fournit les justifications opérationnelles et théoriques et présente les résultats des études d'évaluation de ces méthodes.
    Date de diffusion : 2015-01-28

  • Enquêtes et programmes statistiques — Documentation : 92-568-X
    Description :

    Ce rapport donne une description des méthodes d'échantillonnage et de pondération utilisées pour le Recensement de 2006. Il fournit un historique de l'application de ces méthodes aux recensements du Canada ainsi que les fondements opérationnels et théoriques de ces méthodes, et présente les résultats des études d'évaluation.

    Date de diffusion : 2009-08-11

  • Enquêtes et programmes statistiques — Documentation : 71F0031X2006003
    Description :

    Cet article est une introduction ainsi qu'une discussion sur les modifications apportées aux estimations de l'Enquête sur la population active en janvier 2006. Parmi ces modifications on retrouve notamment l'ajustement des estimations des chiffres de la population, des améliorations aux estimations des secteurs public et privé, ainsi que des mises à jour historiques de plusieurs petites agglomérations de recensement (AR).

    Date de diffusion : 2006-01-25

  • Enquêtes et programmes statistiques — Documentation : 62F0026M2005002
    Description :

    Le présent document fournit un aperçu des différences entre l'ancienne et la nouvelle méthodologie de pondération, ainsi que des effets du nouveau système de pondération sur les estimations.

    Date de diffusion : 2005-06-30
Date de modification :