Inférence et fondements

Passer au filtres. Voir les résultats.

Filtrer les résultats par

Search Help
Currently selected filters that can be removed

Mot(s)-clé(s)

Géographie

1 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (119)

Tout (119) (0 to 10 of 119 results)

  • Articles et rapports : 12-001-X202500200009
    Description : Nous présentons et appliquons une méthodologie pour améliorer l’inférence des paramètres pour petits domaines en utilisant des données tirées de plusieurs sources. Les présents travaux prolongent ceux de Cahoy et Sedransk (2023) qui ont montré la façon d’intégrer des statistiques sommaires provenant de sources multiples. Notre méthodologie pour effectuer des inférences sur la proportion de personnes dans les comtés de Floride qui ne sont pas couvertes par un régime d’assurance-maladie s’appuie sur des distributions a priori hiérarchiques globales-locales. Les résultats d’une vaste étude par simulation montrent que cette méthodologie, fondée sur de multiples sources de données, permettra de produire de meilleures inférences. Parmi les cinq variantes du modèle qui ont été évaluées, celles reposant sur les distributions a priori de type horseshoe pour l’ensemble des variances produisent de meilleurs résultats que celles reposant sur les distributions a priori de type LASSO pour les variances locales.
    Date de diffusion : 2025-12-23

  • Articles et rapports : 12-001-X202500200011
    Description : On propose une approche hiérarchique bayésienne approximative pour laquelle on utilise la famille exponentielle naturelle avec fonction de variance quadratique en combinant de l’information tirée de multiples sources, afin d’améliorer les estimations de moyennes de population finie pour de petits domaines dans le cadre d’enquêtes traditionnelles. Contrairement aux autres approches bayésiennes relatives à l’échantillonnage d’une population finie, on ne suppose pas de modèle pour toutes les unités de la population finie et l’on n’a pas besoin de procéder au couplage d’unités échantillonnées à la base de population finie. On suppose un modèle uniquement pour les unités d’une population finie pour lesquelles on observe la variable dépendante, car, dans le cas de ces unités, le modèle supposé peut être vérifié à l’aide des outils statistiques existants. On ne suggère pas de modèle élaboré selon les moyennes réelles des unités non observées. On suppose plutôt que les moyennes de population des cellules ayant la même combinaison de niveaux de facteur sont identiques pour tous les petits domaines et que la moyenne de population d’une cellule est identique à la moyenne des unités observées dans cette cellule. On met en application la méthodologie que l’on propose pour une enquête réelle couplant des renseignements tirés de multiples sources de données disparates. On fournit également des moyens pratiques de sélectionner un modèle pouvant s’appliquer à un ensemble élargi de modèles dans le même contexte, mais pour un éventail diversifié de problèmes scientifiques.
    Date de diffusion : 2025-12-23

  • Articles et rapports : 11-522-X202500100031
    Description : Plusieurs méthodes récentes de quasi-randomisation pour obtenir des inférences à partir d'échantillons non probabilistes sont comparées. Les techniques prises en compte sont élaborées en supposant que la sélection de l'échantillon est régie par un mécanisme aléatoire latent sous-jacent, et qu'elle peut être décelée en combinant des données d'enquête non probabilistes à un échantillon probabiliste de « référence », obtenu à partir de la même population cible. Des processus de rechange sont mis au point pour les raisons suivantes : i) les indicateurs de participation à l'échantillon non probabiliste ne sont disponibles que pour les unités d'échantillonnage observées, et ii) on ne sait généralement pas quelles unités de la population sous-jacente appartiennent à la fois aux échantillons non probabilistes et de référence. La façon dont différents processus permettent de surmonter ces difficultés, discutons des propriétés théoriques des méthodes et les comparons à l'aide de simulations.
    Date de diffusion : 2025-09-08

  • Articles et rapports : 11-522-X202500100032
    Description : Alors que les sources de données non probabilistes ne sont pas une nouveauté dans les statistiques officielles, on constate un intérêt renouvelé à leur égard, que ce soit en raison de la diminution des taux de réponse aux enquêtes, de l'augmentation des coûts de collecte ou du désir de tirer parti des nouvelles sources de données découlant de la numérisation sociétale en cours. En raison de l'exclusion de certains segments de la population cible, l'inférence dérivée uniquement d'une source de données non probabilistes est susceptible d'entraîner des biais. Cette étude explore une solution à ce biais en intégrant des données non probabilistes à des échantillons probabilistes de référence. Des méthodes se concentreront sur la modélisation de la propension à l'inclusion dans l'ensemble de données non probabilistes avec l'aide de l'échantillon de référence connexe; la propension modélisée étant ensuite appliquée à une approche de pondération selon une probabilité inverse pour produire des estimations démographiques. On présume parfois que l'échantillon de référence est donné. Toutefois, dans cette présentation, une stratégie optimale est visée, c'est-à-dire la combinaison d'un estimateur fondé sur l'intégration des données et d'un plan d'échantillonnage pour l'échantillon probabiliste de référence. Des travaux récents sont présentés qui tirent parti des possibilités de bonne identification d'unités des enquêtes-entreprises pour étudier un estimateur fondé sur les propensions et dériver des probabilités de sélection optimales (inégales) pour l'échantillon de référence.
    Date de diffusion : 2025-09-08

  • Articles et rapports : 12-001-X202500100005
    Description : Dans la présente étude, nous calculons un estimateur d’erreur quadratique moyenne de prédiction (EQMP) sans biais (ou quasiment sans biais) de deuxième ordre du meilleur prédicteur linéaire sans biais empirique d’une moyenne de petits domaines pour une extension semi-paramétrique du modèle bien connu de Fay-Herriot. En particulier, nous calculons notre estimateur d’EQMP essentiellement en supposant certaines conditions sur les moments pour les erreurs d’échantillonnage et les distributions d’effets aléatoires. L’estimateur d’EQMP de Prasad-Rao fondé sur l’hypothèse de normalité présente une propriété surprenante de robustesse en ce qu’il demeure sans biais au deuxième ordre sous l’hypothèse de non-normalité d’effets aléatoires lorsqu’un estimateur de méthode des moments simple de Prasad-Rao est utilisé pour la composante de variance et que la distribution de l’erreur d’échantillonnage est normale. Nous montrons que l’estimateur d’EQMP fondé sur l’hypothèse de normalité n’est plus sans biais de deuxième ordre lorsque la distribution de l’erreur d’échantillonnage présente un aplatissement non nul ou lorsque la méthode des moments de Fay-Herriot est utilisée pour estimer la composante de variance, même lorsque la distribution de l’erreur d’échantillonnage est normale. Il est intéressant de souligner que lors de l’utilisation de l’estimateur de méthode des moments simple pour la composante de variance, l’estimateur d’EQMP que nous proposons ne nécessite pas d’estimation de l’aplatissement des effets aléatoires. Nous présentons également les résultats d’une étude par simulation sur l’exactitude de l’estimateur d’EQMP proposé, en cas de non-normalité des distributions d’échantillonnage et des effets aléatoires.
    Date de diffusion : 2025-06-30

  • Articles et rapports : 12-001-X202500100009
    Description : Le nombre d’utilisateurs de mégadonnées et la communauté de recherche sur les mégadonnées croissent rapidement. Les statisticiens en général semblent se diviser en deux groupes : ceux qui sont enthousiastes et ceux qui sont inquiets, voire carrément hostiles. Les mégadonnées représentent-elles également un grand pas en avant, qui ferait vraiment augmenter notre capacité à extraire des renseignements significatifs et une connaissance réelle des données? Les mégadonnées minimisent-elles l’inférence statistique traditionnelle comme nous la connaissons, en remplaçant la technique d’enquête par une option futuriste à faible coût? Dans le présent document, je vais tenter de mettre en lumière la relation complexe qui lie les mégadonnées à la méthodologie d’échantillonnage. En expliquant au départ les raisons pour lesquelles il devrait être intéressant d’évaluer les mégadonnées du point de vue d’un statisticien spécialiste de l’échantillonnage, je vais approfondir la définition plutôt ambiguë des mégadonnées et faire état de quelques considérations et points de vue très personnels sur le sujet. Au cours de ce processus, plusieurs questions ouvertes surgiront lors de la discussion d’une sélection personnelle d’idées traçables à travers le vaste ensemble de littérature sur la statistique portant sur les mégadonnées et la méthodologie d’échantillonnage. L’exposé portera sur différents aspects qui seront étudiés en fonction de neuf points clés. Il se conclura par une perspective tournée vers l’avenir sur un défi important auquel devront faire face de futurs travaux de recherche : la prise en compte des hypothèses solides nécessaires pour gérer les écarts par rapport à une collecte de données purement aléatoire.
    Date de diffusion : 2025-06-30

  • Articles et rapports : 12-001-X202500100014
    Description : Rao (1999) a résumé les tendances de la théorie et de la méthodologie des enquêtes par sondage au tournant du siècle. Nous présentons un examen à jour de certaines tendances actuelles relatives aux plans d’enquête et aux méthodes d’estimation pour le 50e anniversaire de Techniques d’enquête. On observe, parmi les récentes innovations dans les plans d’enquête, la recherche sur l’anticipation des erreurs non dues à l’échantillonnage à l’étape de la conception et l’élaboration de plans d’échantillonnage adaptatif et équilibré pour profiter des renseignements détaillés de la base de sondage ou des données recueillies pendant le processus de l’enquête. Les méthodes non paramétriques et les méthodes d’apprentissage automatique sont de plus en plus utilisées pour la vérification des données de même que pour l’estimation assistée par un modèle et les ajustements pour la non-réponse. Des modèles d’estimation sur petits domaines ont été élargis pour y intégrer des renseignements spatiaux et des renseignements tirés de séries chronologiques, augmenter la souplesse et la robustesse des modèles de couplage et de variance, procéder à un étalonnage selon des estimateurs directs sur grands domaines et (pour les modèles au niveau de l’unité) tenir compte des plans d’échantillonnage informatif. La disponibilité croissante de vastes ensembles de données administratives, de données de capteurs, de données satellitaires et d’échantillons de commodité a stimulé la recherche sur la façon d’utiliser ces sources - à elles seules et lorsqu’elles sont intégrées dans des échantillons probabilistes. Nous concluons en abordant certaines frontières de la recherche sur les enquêtes.
    Date de diffusion : 2025-06-30

  • Articles et rapports : 12-001-X202500100016
    Description : Les commentaires qui suivent portent sur l’article intitulé « Progrès de la science et de la pratique des enquêtes : hier, aujourd’hui et demain » de C.-E. Särndal. Ils portent sur les principes fondamentaux de l’échantillonnage probabiliste, les avancées résultant d’approches d’inférence concurrentes, les liens avec d’autres aspects de la statistique, ainsi que les données au 21e siècle.
    Date de diffusion : 2025-06-30

  • Articles et rapports : 12-001-X202400200008
    Description : Lorsqu’ils souhaitent diffuser des fichiers à grande diffusion pour des données confidentielles, les organismes de statistique peuvent générer des données entièrement synthétiques. Nous proposons une méthode pour construire des données entièrement synthétiques à partir d’enquêtes dont les données sont recueillies selon des plans d’échantillonnage complexes. Notre méthode respecte la stratégie générale proposée par Rubin (1993). Plus précisément, nous générons des pseudo-populations en appliquant la méthode du bootstrap bayésien en population finie pondéré pour tenir compte des poids d’enquête, tirons des échantillons aléatoires simples de ces pseudo-populations, estimons des modèles de synthèse en utilisant ces échantillons aléatoires simples et diffusons des données simulées tirées des modèles sous la forme de fichiers à grande diffusion. Pour faciliter l’estimation de la variance, nous utilisons le cadre d’imputation multiple et deux stratégies de génération de données. Dans la première, nous générons plusieurs ensembles de données à partir de chaque échantillon aléatoire simple. Dans la seconde, nous générons un seul ensemble de données synthétiques à partir de chaque échantillon aléatoire simple. Nous présentons des règles de combinaison de l’imputation multiple pour chaque scénario. Nous illustrons les propriétés d’échantillonnage répété des règles de combinaison au moyen d’études par simulations, ce qui comprend des comparaisons avec la génération de données synthétiques en fonction de méthodes de pseudo-vraisemblance. Nous appliquons les méthodes proposées à un sous-ensemble de données tirées de l’American Community Survey.
    Date de diffusion : 2024-12-20

  • Articles et rapports : 12-001-X202400200014
    Description : Des plans d’échantillonnage en grappes adaptatif ont été proposés comme méthode d’échantillonnage de populations rares dont les unités tendent à apparaître en grappes. L’estimateur résultant n’est basé sur aucune hypothèse de modèle et il est sans biais par rapport au plan. Sa variance peut être plus petite que celle de l’estimateur classique qui ne tient pas compte du fait que l’on a affaire à une population rare. Dans le présent article, nous démontrerons que, lorsque l’échantillonnage en grappes adaptatif est approprié, son estimateur ne tient pas compte de tous les renseignements disponibles dans le plan. Nous présentons une approche quasi bayésienne qui intègre les informations qui sont présentement ignorées. Nous verrons que l’estimateur résultant constitue une amélioration significative par rapport aux méthodes actuelles.
    Date de diffusion : 2024-12-20
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (111)

Analyses (111) (0 to 10 of 111 results)

  • Articles et rapports : 12-001-X202500200009
    Description : Nous présentons et appliquons une méthodologie pour améliorer l’inférence des paramètres pour petits domaines en utilisant des données tirées de plusieurs sources. Les présents travaux prolongent ceux de Cahoy et Sedransk (2023) qui ont montré la façon d’intégrer des statistiques sommaires provenant de sources multiples. Notre méthodologie pour effectuer des inférences sur la proportion de personnes dans les comtés de Floride qui ne sont pas couvertes par un régime d’assurance-maladie s’appuie sur des distributions a priori hiérarchiques globales-locales. Les résultats d’une vaste étude par simulation montrent que cette méthodologie, fondée sur de multiples sources de données, permettra de produire de meilleures inférences. Parmi les cinq variantes du modèle qui ont été évaluées, celles reposant sur les distributions a priori de type horseshoe pour l’ensemble des variances produisent de meilleurs résultats que celles reposant sur les distributions a priori de type LASSO pour les variances locales.
    Date de diffusion : 2025-12-23

  • Articles et rapports : 12-001-X202500200011
    Description : On propose une approche hiérarchique bayésienne approximative pour laquelle on utilise la famille exponentielle naturelle avec fonction de variance quadratique en combinant de l’information tirée de multiples sources, afin d’améliorer les estimations de moyennes de population finie pour de petits domaines dans le cadre d’enquêtes traditionnelles. Contrairement aux autres approches bayésiennes relatives à l’échantillonnage d’une population finie, on ne suppose pas de modèle pour toutes les unités de la population finie et l’on n’a pas besoin de procéder au couplage d’unités échantillonnées à la base de population finie. On suppose un modèle uniquement pour les unités d’une population finie pour lesquelles on observe la variable dépendante, car, dans le cas de ces unités, le modèle supposé peut être vérifié à l’aide des outils statistiques existants. On ne suggère pas de modèle élaboré selon les moyennes réelles des unités non observées. On suppose plutôt que les moyennes de population des cellules ayant la même combinaison de niveaux de facteur sont identiques pour tous les petits domaines et que la moyenne de population d’une cellule est identique à la moyenne des unités observées dans cette cellule. On met en application la méthodologie que l’on propose pour une enquête réelle couplant des renseignements tirés de multiples sources de données disparates. On fournit également des moyens pratiques de sélectionner un modèle pouvant s’appliquer à un ensemble élargi de modèles dans le même contexte, mais pour un éventail diversifié de problèmes scientifiques.
    Date de diffusion : 2025-12-23

  • Articles et rapports : 11-522-X202500100031
    Description : Plusieurs méthodes récentes de quasi-randomisation pour obtenir des inférences à partir d'échantillons non probabilistes sont comparées. Les techniques prises en compte sont élaborées en supposant que la sélection de l'échantillon est régie par un mécanisme aléatoire latent sous-jacent, et qu'elle peut être décelée en combinant des données d'enquête non probabilistes à un échantillon probabiliste de « référence », obtenu à partir de la même population cible. Des processus de rechange sont mis au point pour les raisons suivantes : i) les indicateurs de participation à l'échantillon non probabiliste ne sont disponibles que pour les unités d'échantillonnage observées, et ii) on ne sait généralement pas quelles unités de la population sous-jacente appartiennent à la fois aux échantillons non probabilistes et de référence. La façon dont différents processus permettent de surmonter ces difficultés, discutons des propriétés théoriques des méthodes et les comparons à l'aide de simulations.
    Date de diffusion : 2025-09-08

  • Articles et rapports : 11-522-X202500100032
    Description : Alors que les sources de données non probabilistes ne sont pas une nouveauté dans les statistiques officielles, on constate un intérêt renouvelé à leur égard, que ce soit en raison de la diminution des taux de réponse aux enquêtes, de l'augmentation des coûts de collecte ou du désir de tirer parti des nouvelles sources de données découlant de la numérisation sociétale en cours. En raison de l'exclusion de certains segments de la population cible, l'inférence dérivée uniquement d'une source de données non probabilistes est susceptible d'entraîner des biais. Cette étude explore une solution à ce biais en intégrant des données non probabilistes à des échantillons probabilistes de référence. Des méthodes se concentreront sur la modélisation de la propension à l'inclusion dans l'ensemble de données non probabilistes avec l'aide de l'échantillon de référence connexe; la propension modélisée étant ensuite appliquée à une approche de pondération selon une probabilité inverse pour produire des estimations démographiques. On présume parfois que l'échantillon de référence est donné. Toutefois, dans cette présentation, une stratégie optimale est visée, c'est-à-dire la combinaison d'un estimateur fondé sur l'intégration des données et d'un plan d'échantillonnage pour l'échantillon probabiliste de référence. Des travaux récents sont présentés qui tirent parti des possibilités de bonne identification d'unités des enquêtes-entreprises pour étudier un estimateur fondé sur les propensions et dériver des probabilités de sélection optimales (inégales) pour l'échantillon de référence.
    Date de diffusion : 2025-09-08

  • Articles et rapports : 12-001-X202500100005
    Description : Dans la présente étude, nous calculons un estimateur d’erreur quadratique moyenne de prédiction (EQMP) sans biais (ou quasiment sans biais) de deuxième ordre du meilleur prédicteur linéaire sans biais empirique d’une moyenne de petits domaines pour une extension semi-paramétrique du modèle bien connu de Fay-Herriot. En particulier, nous calculons notre estimateur d’EQMP essentiellement en supposant certaines conditions sur les moments pour les erreurs d’échantillonnage et les distributions d’effets aléatoires. L’estimateur d’EQMP de Prasad-Rao fondé sur l’hypothèse de normalité présente une propriété surprenante de robustesse en ce qu’il demeure sans biais au deuxième ordre sous l’hypothèse de non-normalité d’effets aléatoires lorsqu’un estimateur de méthode des moments simple de Prasad-Rao est utilisé pour la composante de variance et que la distribution de l’erreur d’échantillonnage est normale. Nous montrons que l’estimateur d’EQMP fondé sur l’hypothèse de normalité n’est plus sans biais de deuxième ordre lorsque la distribution de l’erreur d’échantillonnage présente un aplatissement non nul ou lorsque la méthode des moments de Fay-Herriot est utilisée pour estimer la composante de variance, même lorsque la distribution de l’erreur d’échantillonnage est normale. Il est intéressant de souligner que lors de l’utilisation de l’estimateur de méthode des moments simple pour la composante de variance, l’estimateur d’EQMP que nous proposons ne nécessite pas d’estimation de l’aplatissement des effets aléatoires. Nous présentons également les résultats d’une étude par simulation sur l’exactitude de l’estimateur d’EQMP proposé, en cas de non-normalité des distributions d’échantillonnage et des effets aléatoires.
    Date de diffusion : 2025-06-30

  • Articles et rapports : 12-001-X202500100009
    Description : Le nombre d’utilisateurs de mégadonnées et la communauté de recherche sur les mégadonnées croissent rapidement. Les statisticiens en général semblent se diviser en deux groupes : ceux qui sont enthousiastes et ceux qui sont inquiets, voire carrément hostiles. Les mégadonnées représentent-elles également un grand pas en avant, qui ferait vraiment augmenter notre capacité à extraire des renseignements significatifs et une connaissance réelle des données? Les mégadonnées minimisent-elles l’inférence statistique traditionnelle comme nous la connaissons, en remplaçant la technique d’enquête par une option futuriste à faible coût? Dans le présent document, je vais tenter de mettre en lumière la relation complexe qui lie les mégadonnées à la méthodologie d’échantillonnage. En expliquant au départ les raisons pour lesquelles il devrait être intéressant d’évaluer les mégadonnées du point de vue d’un statisticien spécialiste de l’échantillonnage, je vais approfondir la définition plutôt ambiguë des mégadonnées et faire état de quelques considérations et points de vue très personnels sur le sujet. Au cours de ce processus, plusieurs questions ouvertes surgiront lors de la discussion d’une sélection personnelle d’idées traçables à travers le vaste ensemble de littérature sur la statistique portant sur les mégadonnées et la méthodologie d’échantillonnage. L’exposé portera sur différents aspects qui seront étudiés en fonction de neuf points clés. Il se conclura par une perspective tournée vers l’avenir sur un défi important auquel devront faire face de futurs travaux de recherche : la prise en compte des hypothèses solides nécessaires pour gérer les écarts par rapport à une collecte de données purement aléatoire.
    Date de diffusion : 2025-06-30

  • Articles et rapports : 12-001-X202500100014
    Description : Rao (1999) a résumé les tendances de la théorie et de la méthodologie des enquêtes par sondage au tournant du siècle. Nous présentons un examen à jour de certaines tendances actuelles relatives aux plans d’enquête et aux méthodes d’estimation pour le 50e anniversaire de Techniques d’enquête. On observe, parmi les récentes innovations dans les plans d’enquête, la recherche sur l’anticipation des erreurs non dues à l’échantillonnage à l’étape de la conception et l’élaboration de plans d’échantillonnage adaptatif et équilibré pour profiter des renseignements détaillés de la base de sondage ou des données recueillies pendant le processus de l’enquête. Les méthodes non paramétriques et les méthodes d’apprentissage automatique sont de plus en plus utilisées pour la vérification des données de même que pour l’estimation assistée par un modèle et les ajustements pour la non-réponse. Des modèles d’estimation sur petits domaines ont été élargis pour y intégrer des renseignements spatiaux et des renseignements tirés de séries chronologiques, augmenter la souplesse et la robustesse des modèles de couplage et de variance, procéder à un étalonnage selon des estimateurs directs sur grands domaines et (pour les modèles au niveau de l’unité) tenir compte des plans d’échantillonnage informatif. La disponibilité croissante de vastes ensembles de données administratives, de données de capteurs, de données satellitaires et d’échantillons de commodité a stimulé la recherche sur la façon d’utiliser ces sources - à elles seules et lorsqu’elles sont intégrées dans des échantillons probabilistes. Nous concluons en abordant certaines frontières de la recherche sur les enquêtes.
    Date de diffusion : 2025-06-30

  • Articles et rapports : 12-001-X202500100016
    Description : Les commentaires qui suivent portent sur l’article intitulé « Progrès de la science et de la pratique des enquêtes : hier, aujourd’hui et demain » de C.-E. Särndal. Ils portent sur les principes fondamentaux de l’échantillonnage probabiliste, les avancées résultant d’approches d’inférence concurrentes, les liens avec d’autres aspects de la statistique, ainsi que les données au 21e siècle.
    Date de diffusion : 2025-06-30

  • Articles et rapports : 12-001-X202400200008
    Description : Lorsqu’ils souhaitent diffuser des fichiers à grande diffusion pour des données confidentielles, les organismes de statistique peuvent générer des données entièrement synthétiques. Nous proposons une méthode pour construire des données entièrement synthétiques à partir d’enquêtes dont les données sont recueillies selon des plans d’échantillonnage complexes. Notre méthode respecte la stratégie générale proposée par Rubin (1993). Plus précisément, nous générons des pseudo-populations en appliquant la méthode du bootstrap bayésien en population finie pondéré pour tenir compte des poids d’enquête, tirons des échantillons aléatoires simples de ces pseudo-populations, estimons des modèles de synthèse en utilisant ces échantillons aléatoires simples et diffusons des données simulées tirées des modèles sous la forme de fichiers à grande diffusion. Pour faciliter l’estimation de la variance, nous utilisons le cadre d’imputation multiple et deux stratégies de génération de données. Dans la première, nous générons plusieurs ensembles de données à partir de chaque échantillon aléatoire simple. Dans la seconde, nous générons un seul ensemble de données synthétiques à partir de chaque échantillon aléatoire simple. Nous présentons des règles de combinaison de l’imputation multiple pour chaque scénario. Nous illustrons les propriétés d’échantillonnage répété des règles de combinaison au moyen d’études par simulations, ce qui comprend des comparaisons avec la génération de données synthétiques en fonction de méthodes de pseudo-vraisemblance. Nous appliquons les méthodes proposées à un sous-ensemble de données tirées de l’American Community Survey.
    Date de diffusion : 2024-12-20

  • Articles et rapports : 12-001-X202400200014
    Description : Des plans d’échantillonnage en grappes adaptatif ont été proposés comme méthode d’échantillonnage de populations rares dont les unités tendent à apparaître en grappes. L’estimateur résultant n’est basé sur aucune hypothèse de modèle et il est sans biais par rapport au plan. Sa variance peut être plus petite que celle de l’estimateur classique qui ne tient pas compte du fait que l’on a affaire à une population rare. Dans le présent article, nous démontrerons que, lorsque l’échantillonnage en grappes adaptatif est approprié, son estimateur ne tient pas compte de tous les renseignements disponibles dans le plan. Nous présentons une approche quasi bayésienne qui intègre les informations qui sont présentement ignorées. Nous verrons que l’estimateur résultant constitue une amélioration significative par rapport aux méthodes actuelles.
    Date de diffusion : 2024-12-20
Références (8)

Références (8) ((8 results))

  • Enquêtes et programmes statistiques — Documentation : 11-522-X201300014259
    Description :

    Dans l’optique de réduire le fardeau de réponse des exploitants agricoles, Statistique Canada étudie d’autres approches que les enquêtes par téléphone pour produire des estimations des grandes cultures. Une option consiste à publier des estimations de la superficie récoltée et du rendement en septembre, comme cela se fait actuellement, mais de les calculer au moyen de modèles fondés sur des données par satellite et des données météorologiques, ainsi que les données de l’enquête téléphonique de juillet. Toutefois, avant d’adopter une telle approche, on doit trouver une méthode pour produire des estimations comportant un niveau d’exactitude suffisant. Des recherches sont en cours pour examiner différentes possibilités. Les résultats de la recherche initiale et les enjeux à prendre en compte sont abordés dans ce document.

    Date de diffusion : 2014-10-31

  • Enquêtes et programmes statistiques — Documentation : 12-002-X20040027035
    Description :

    Lors du traitement des données du cycle 4 de l'Enquête longitudinale nationale sur les enfants et les jeunes (ELNEJ), des révisions historiques ont été apportées au trois premiers cycles de l'enquête afin de corriger des erreurs et faire une mise à jour des données. Au cours du traitement, une attention particulière a été portée à la variable PERSRUK (l'identificateur au niveau de la personne) et à la variable FIELDRUK (l'identificateur au niveau du ménage). Le même niveau d'attention n'a pas été accordé aux autres identificateurs incluent dans la base de données, soit, la variable CHILDID (un identificateur au niveau de l'enfant) et la variable _IDHD01 (un identificateur au niveau du ménage). Ces identificateurs ont été créés pour les fichiers publics et ils se retrouvent par défaut dans les fichiers maîtres. Lorsque les fichiers maîtres sont utilisés, la variable PERSRUK devrait être utilisée pour lier les différents fichiers de données de l'enquête entre eux et la variable FIELDRUK pour déterminer le ménage.

    Date de diffusion : 2004-10-05

  • Enquêtes et programmes statistiques — Documentation : 13F0026M2001003
    Description :

    Les premiers résultats de l'Enquête sur la sécurité financière (ESF), qui fournit de l'information sur la valeur nette du patrimoine des Canadiens, ont été publiés le 15 mars 2001 dans Le quotidien. L'enquête a recueilli des renseignements sur la valeur des avoirs financiers et non financiers de chaque unité familiale et sur le montant de sa dette.

    Statistique Canada travaille actuellement à préciser cette première estimation de la valeur nette en y ajoutant une estimation de la valeur des droits à pension constitués dans les régimes de retraite d'employeur. Il s'agit d'un volet essentiel pour toute enquête sur l'avoir et la dette étant donné que, pour la plupart des unités familiales, c'est probablement l'un des avoirs les plus importants. Le vieillissement de la population rend l'information sur la constitution des droits à pension nécessaire afin de mieux comprendre la situation financière des personnes qui approchent de la retraite. Ces estimations mises à jour seront publiées à la fin de l'automne 2001.

    Le processus utilisé pour obtenir une estimation de la valeur des droits à pension constitués dans les régimes de pension agréés d'employeur (RPA) est complexe. Le présent document décrit la méthodologie utilisée pour estimer cette valeur en ce qui concerne les groupes suivants : a) Les personnes qui faisaient partie d'un RPA au moment de l'enquête (appelées membres actuels d'un régime de retraite); b) Les personnes qui ont déjà fait partie d'un RPA et qui ont laissé l'argent dans le régime de retraite ou qui l'ont transféré dans un nouveau régime de retraite; c) Les personnes qui touchent des prestations d'un RPA.

    Cette méthodologie a été proposée par Hubert Frenken et Michael Cohen. Hubert Frenken compte de nombreuses années d'expérience avec Statistique Canada où il a travaillé avec des données sur les régimes de retraite d'employeur. Michael Cohen fait partie de la direction de la firme d'actuariat-conseil William M. Mercer. Plus tôt cette année, Statistique Canada a organisé une consultation publique sur la méthodologie proposée. Le présent rapport inclut des mises à jour faites après avoir reçu les rétroactions des utilisateurs des données.

    Date de diffusion : 2001-09-05

  • Enquêtes et programmes statistiques — Documentation : 13F0026M2001002
    Description :

    L'Enquête sur la sécurité financière (ESF) fournira des renseignements sur la situation nette des Canadiens. C'est pourquoi elle a recueilli, en mai et juin 1999, des données sur la valeur de l'avoir et de la dette de chacune des familles ou personnes seules comprises dans l'échantillon. Il s'est avéré difficile de calculer ou d'estimer la valeur d'un avoir en particulier, à savoir la valeur actualisée du montant que les répondants ont constitué dans leur régime de retraite d'employeur. On appelle souvent ces régimes des régimes de pension agréés (RPA), car ils doivent être agréés par l'Agence des douanes et du revenu du Canada (ARDC) (c'est-à-dire enregistrés auprès de l'ADRC). Bien qu'on communique à certains participants à un RPA une estimation de la valeur de leurs droits constitués, ils l'ignorent dans la plupart des cas. Pourtant, il s'agit sans doute d'un des avoirs les plus importants pour bon nombre d'unités familiales. De plus, à mesure que la génération du baby boom se rapproche de la retraite, le besoin d'information sur ses rentes constituées se fait très pressant si l'on veut mieux comprendre sa capacité financière à négocier ce nouveau virage.

    La présente étude vise deux objectifs : décrire, pour stimuler des discussions, la méthodologie proposée en vue d'estimer la valeur actualisée des droits à pension pour les besoins de l'Enquête sur la sécurité financière; et recueillir des réactions à la méthodologie proposée. Le présent document propose une méthodologie pour estimer la valeur des droits constitués dans un régime d'employeur pour les groupes suivants : a) les personnes qui adhéraient à un RPA au moment de l'enquête (les «participants actuels»); b) les personnes qui ont déjà adhéré à un RPA et qui ont soit laissé leurs fonds dans le régime ou les ont transférés dans un nouveau régime; et c) les personnes qui touchent une rente prévue par un RPA.

    Date de diffusion : 2001-02-07

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015642
    Description :

    La Base de données longitudinale sur l'immigration (BDIM) établit un lien entre les dossiers administratifs de l'immigration et de l'impôt en une source exhaustive de données sur le comportement sur le marché du travail de la population des immigrants ayant obtenu le droit d'établissement au Canada. Elle porte sur la période de 1980 à 1995 et sera mise à jour en 1999 pour l'année d'imposition 1996. Statistique Canada gère la base de données pour le compte d'un consortium fédéral-provincial dirigé par Citoyenneté et Immigration Canada. Le présent document examine les enjeux du développement d'une base de données longitudinale combinant des dossiers administratifs, à l'appui de la recherche et de l'analyse en matière de politiques. L'accent est plus particulièrement mis sur les questions de méthodologie, de concepts, d'analyse et de protection des renseignements personnels découlant de la création et du développement continu de cette base de données. Le présent document aborde en outre brièvement les résultats des recherches, qui illustrent les liens en matière de résultats des politiques que la BDIM permet aux décideurs d'examiner.

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015650
    Description :

    La U.S. Manufacturing Plant Ownership Change Database (OCD) a été créée d'après des données sur les usines extraites de la Longitudinal Research Database (LRD) du Census Bureau. Elle contient des données sur toutes les usines de fabrication qui ont changé de propriétaire au moins une fois entre 1963 et 1992. L'auteur fait le point sur l'OCD et examine les possibilités de recherche. Pour utiliser empiriquement ces possibilités, il se sert de données extraites de la base de données pour étudier le lien entre les changements de propriété et les fermetures d'usines.

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015658
    Description :

    Le radon, qui est un gaz dont la présence est observée naturellement dans la plupart des maisons, est un facteur de risque confirmé pour le cancer du poumon chez les humains. Le National Research Council des États-Unis (1999) vient de terminer une évaluation approfondie du risque pour la santé de l'exposition résidentielle au radon, tout en élaborant des modèles de projection du risque de cancer pulmonaire dû au radon pour l'ensemble de la population. Cette analyse indique que le radon joue possiblement un rôle dans l'étiologie de 10-15 % des cas de cancer du poumon aux États-Unis, bien que ces estimations comportent une part appréciable d'incertitude. Les auteurs présentent une analyse partielle de l'incertidude et de la variabilité des estimations du risque de cancer pulmonaire dû à l'exposition résidentielle au radon, aux États-Unis, à l'aide d'un cadre général d'analyse de l'incertitude et de la variabilité établi antérieurement par ces mêmes auteurs. Plus particulièrement, il est question des estimations de l'excès de risque relatif (EFF) par âge et du risque relatif à vie (RRV), qui varient tous deux considérablement d'une personne à l'autre.

    Date de diffusion : 2000-03-02

  • Fichiers et documentation sur la géographie : 92F0138M1993001
    Géographie : Canada
    Description :

    Dans une perspective d'amélioration et de développement, les divisions de la géographie de Statistique Canada et du U.S. Bureau of the Census ont entrepris conjointement un programme de recherche pour étudier les régions géographiques, et la pertinence de ces dernières. Un des principaux objectifs poursuivis est la définition d'une région géographique commune qui servira de base géostatistique aux travaux transfrontaliers de recherche, d'analyse et de cartographie.

    Le présent rapport, première étape du programme de recherche, dresse la liste des régions géographiques normalisées canadiennes et américaines comparables d'après les définitions actuelles. Statistique Canada et l'U.S. Bureau of the Census ont deux grandes catégories d'entités géographiques normalisées: les régions administratives ou législatives (appelées entités "légales" aux États-Unis) et les régions statistiques.

    Ce premier appariement de régions géographiques s'est fait uniquement à partir des définitions établies pour le Recensement de la population et du logement du Canada du 4 juin 1991 et du Recensement de la population et du logement des États- Unis du 1er avril 1990. La comparabilité globale des concepts est l'aspect important d'un tel appariement, non pas les seuils numériques utilisés pour les délimitations des régions.

    Les utilisateurs doivent se servir du présent rapport comme d'un guide général pour comparer les régions géographiques de recensement du Canada et des États- Unis. Ils doivent garder à l'esprit que les types de peuplement et les niveaux de population présentent des différences qui font qu'une correspondance parfaite ne peut être établie entre des régions conceptuellement semblables. Les régions géographiques comparées dans le présent rapport peuvent servir de cadre pour d'autres recherches et d'autres analyses empiriques.

    Date de diffusion : 1999-03-05