Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (71)

Tout (71) (0 à 10 de 71 résultats)

  • Articles et rapports : 11-522-X202200100003
    Description : L’estimation à de fins niveaux d’agrégation est nécessaire pour mieux décrire une société. Les approches fondées sur un modèle d’estimation sur petits domaines qui combinent des données d’enquête parcimonieuses à des données riches provenant de sources auxiliaires se sont révélées utiles pour améliorer la fiabilité des estimations sur petits domaines. Nous examinons ici un scénario où des estimations basées sur un modèle pour petits domaines, produit à un niveau d’agrégation donné, devaient être désagrégées pour mieux décrire la structure sociale à des niveaux plus fins. Pour ce scénario, nous avons élaboré une méthode de répartition afin de mettre en œuvre la désagrégation, surmontant les problèmes associés à la disponibilité des données et à l’élaboration de modèles à des niveaux de cette finesse. La méthode est appliquée à l’estimation de la littératie et de la numératie des adultes au niveau du comté par groupe, au moyen des données du Programme pour l’évaluation internationale des compétences des adultes (PEICA) des États-Unis. Dans cette application, les groupes sont définis en fonction de l’âge ou de la scolarité, mais la méthode pourrait être appliquée à l’estimation d’autres groupes en quête d’équité.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 12-001-X202300200001
    Description : Lorsqu’un fournisseur de soins de santé de Medicare est soupçonné de fraude liée à la facturation, on isole une population de paiements X versés à ce fournisseur sur une certaine période. Un examinateur médical agréé peut, dans un long processus, établir le trop-payé Y = X - (montant justifié par la preuve) pour chaque paiement. En temps normal, il y aura trop de paiements dans une population pour que chacun soit examiné avec soin, aussi prélève-t-on un échantillon probabiliste. Les trop-payés de cet échantillon servent alors à calculer une borne inférieure de l’intervalle de confiance de 90 % pour le trop-payé total de cette population. La borne correspond au montant exigé en recouvrement auprès du fournisseur. Malheureusement, les méthodes classiques de calcul de cette borne ne permettent parfois pas de dégager le niveau de confiance de 90 %, plus particulièrement lorsqu’on utilise un échantillon stratifié.

    Dans le présent document, nous présentons et décrivons 166 échantillons épurés tirés des enquêtes au sujet de l’intégrité de Medicare qui comportent 156 populations de paiements correspondantes. Les 7 588 paires échantillonnées (Y, X) indiquent 1) que les vérifications réalisées au sein de Medicare affichent des taux d’erreur élevés : plus de 76 % des paiements en question sont considérés comme étant des erreurs. Elles indiquent aussi 2) que les configurations de ces échantillons vont dans le sens d’un modèle de mélange « tout ou rien » pour (Y, X) qui est déjà défini dans les études spécialisées. Nous analysons des procédures de test de Monte Carlo fondées sur un modèle pour les plans de sondage de Medicare, ainsi que des méthodes de stratification fondées sur les moments anticipés du modèle. Pour la viabilité (atteinte d’un niveau de confiance de 90 %), nous définissons dans le présent article une nouvelle méthode de stratification qui rivalise avec les meilleures parmi de nombreuses méthodes existantes et qui semble moins sensible au choix de paramètres d’exploitation. Pour ce qui est du recouvrement des trop-payés (ce qui équivaut à une mesure de la précision), la nouvelle méthode se compare aussi aux meilleures parmi les nombreuses méthodes expérimentées. Malheureusement, aucun algorithme de stratification mis à l’essai ne s’est révélé viable pour plus de la moitié environ des 104 populations visées par l’essai.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300200004
    Description : Nous présentons une nouvelle méthodologie pour réconcilier des estimations des totaux des superficies cultivées au niveau du comté à un total prédéfini au niveau de l’État soumis à des contraintes d’inégalité et à des variances aléatoires dans le modèle de Fay-Herriot. Pour la superficie ensemencée du National Agricultural Statistics Service (NASS), un organisme du ministère de l’Agriculture des États-Unis (USDA), il est nécessaire d’intégrer la contrainte selon laquelle les totaux estimés, dérivés de données d’enquête et d’autres données auxiliaires, ne sont pas inférieurs aux totaux administratifs de la superficie ensemencée préenregistrés par d’autres organismes du USDA, à l’exception de NASS. Ces totaux administratifs sont considérés comme fixes et connus, et cette exigence de cohérence supplémentaire ajoute à la complexité de la réconciliation des estimations au niveau du comté. Une analyse entièrement bayésienne du modèle de Fay-Herriot offre un moyen intéressant d’intégrer les contraintes d’inégalité et de réconciliation et de quantifier les incertitudes qui en résultent, mais l’échantillonnage à partir des densités a posteriori comprend une intégration difficile; des approximations raisonnables doivent être faites. Tout d’abord, nous décrivons un modèle à rétrécissement unique, qui rétrécit les moyennes lorsque l’on suppose que les variances sont connues. Ensuite, nous élargissons ce modèle pour tenir compte du rétrécissement double par l’emprunt d’information dans les moyennes et les variances. Ce modèle élargi comporte deux sources de variation supplémentaire; toutefois, comme nous rétrécissons à la fois les moyennes et les variances, ce second modèle devrait avoir un meilleur rendement sur le plan de la qualité de l’ajustement (fiabilité) et, possiblement, sur le plan de la précision. Les calculs sont difficiles pour les deux modèles, qui sont appliqués à des ensembles de données simulées dont les propriétés ressemblent à celles des cultures de maïs de l’Illinois.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 82-003-X202301200002
    Description : La validité des estimations de la survie fondées sur les données des registres du cancer découle en partie du repérage des décès de personnes atteintes de cancer. Les personnes dont le décès n’est pas repéré semblent vivre éternellement et sont informellement appelées « immortelles ». Leur présence dans les données des registres peut entraîner des estimations de survie exagérées. L’étude évalue l’enjeu des immortels dans le Registre canadien du cancer au moyen d’une méthode proposée qui permet de comparer la survie des survivants à long terme du cancer pour lesquels un remède « statistique » a été déclaré avec celle d’autres personnes similaires issues de la population générale.
    Date de diffusion : 2023-12-20

  • Articles et rapports : 12-001-X202200200004
    Description :

    Cet exposé vise à approfondir l’examen de Wu sur l’inférence à partir d’échantillons non probabilistes, ainsi qu’à mettre en évidence les aspects qui constituent probablement d’autres pistes de recherche utiles. Elle se termine par un appel en faveur d’un registre organisé d’enquêtes probabilistes de grande qualité qui visera à fournir des renseignements utiles à l’ajustement d’enquêtes non probabilistes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200100005
    Description :

    Les études méthodologiques des effets des intervieweurs humains sur la qualité des données d’enquête ont longtemps été limitées par une hypothèse critique selon laquelle les intervieweurs d’une enquête donnée sont attribués à des sous-ensembles aléatoires de l’échantillon global plus important (également connu sous le nom d’attribution imbriquée). En l’absence de ce type de conception d’étude, les estimations des effets de l’intervieweur sur les mesures d’intérêt de l’enquête, plutôt que les effets de recrutement ou de mesure spécifiquement introduits par les intervieweurs, peuvent refléter des différences entre les intervieweurs dans les caractéristiques des membres de l’échantillon qui leur sont assignés. Les tentatives précédentes d’approximation de l’attribution imbriquée se sont généralement appuyées sur des modèles de régression pour conditionner les facteurs qui pourraient être liés à l’attribution des intervieweurs. Nous proposons une nouvelle approche pour surmonter ce manque d’attribution imbriquée lors de l’estimation des effets de l’intervieweur. Cette approche, que nous appelons la « méthode d’ancrage », tire avantage des corrélations entre les variables observées qui sont peu susceptibles d’être influencées par les intervieweurs (« ancres ») et les variables qui peuvent être sujettes aux effets de l’intervieweur, et ce, afin d’éliminer les composantes des corrélations induites par l’intervieweur que l’absence d’attribution imbriquée peut engendrer. Nous tenons compte à la fois des approches fréquentistes et bayésiennes, ces dernières pouvant utiliser des renseignements sur les variances de l’effet de l’intervieweur dans les précédents ensembles de données d’une étude, s’ils sont disponibles. Nous évaluons cette nouvelle méthodologie de manière empirique à l’aide d’une étude par simulation, puis nous illustrons son application au moyen de données d’enquête réelles provenant du Behavioral Risk Factor Surveillance System (BRFSS), où les identifiants des intervieweurs sont fournis dans les fichiers de données à grande diffusion. Bien que la méthode que nous proposons partage certaines des limites de l’approche traditionnelle, à savoir le besoin de variables associées au résultat d’intérêt qui sont également exemptes d’erreur de mesure, elle permet d’éviter le besoin d’inférence conditionnelle et présente donc de meilleures qualités inférentielles lorsque l’accent est mis sur les estimations marginales. Elle montre également des signes de réduction supplémentaire de la surestimation des effets plus importants de l’intervieweur par rapport à l’approche traditionnelle.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X202100200004
    Description :

    L’article présente une étude comparative de trois méthodes de construction d’intervalles de confiance pour la moyenne et les quantiles à partir de données d’enquête en présence de non-réponse. Ces méthodes, à savoir la vraisemblance empirique, la linéarisation et la méthode de Woodruff (1952), ont été appliquées à des données sur le revenu tirées de l’Enquête intercensitaire mexicaine de 2015 et à des données simulées. Un modèle de propension à répondre a servi à ajuster les poids d’échantillonnage, et les performances empiriques des méthodes ont été évaluées en fonction de la couverture des intervalles de confiance au moyen d’études par simulations. Les méthodes de vraisemblance empirique et de linéarisation ont donné de bonnes performances pour la moyenne, sauf quand la variable d’intérêt avait des valeurs extrêmes. Pour les quantiles, la méthode de linéarisation s’est montrée peu performante; les méthodes de vraisemblance empirique et de Woodruff ont donné de meilleurs résultats, mais sans atteindre la couverture nominale quand la variable d’intérêt avait des valeurs à haute fréquence proches du quantile d’intérêt.

    Date de diffusion : 2022-01-06

  • Articles et rapports : 12-001-X202100200006
    Description :

    Le calage fondé sur l’échantillon se produit quand les poids d’une enquête sont calés pour contrôler les totaux aléatoires, au lieu de représenter les totaux fixes au niveau de la population. Les totaux de contrôle peuvent être estimés à partir de différentes phases de la même enquête ou d’une autre enquête. En cas de calage fondé sur l’échantillon, pour que l’estimation de la variance soit valide, il est nécessaire de tenir compte de la contribution de l’erreur due à l’estimation des totaux de contrôle. Nous proposons une nouvelle méthode d’estimation de la variance qui utilise directement les poids de rééchantillonnage de deux enquêtes, dont une sert à fournir des totaux de contrôle pour le calage des autres poids d’enquête. Aucune restriction n’est établie quant à la nature des deux méthodes de rééchantillonnage et il n’est pas nécessaire de calculer d’estimation de la variance-covariance, ce qui simplifie la mise en œuvre pratique de la méthode proposée. Nous fournissons la description générale de la méthode utilisée pour les enquêtes comportant deux méthodes de rééchantillonnage arbitraire avec un nombre de répliques différent. Il est démontré que l’estimateur de la variance obtenu est convergent pour la variance asymptotique de l’estimateur calé, quand le calage est effectué au moyen de l’estimation par la régression ou la méthode itérative du quotient (raking). La méthode est illustrée dans une application réelle, dans laquelle il faut harmoniser la composition démographique de deux enquêtes pour améliorer la comparabilité des estimations de l’enquête.

    Date de diffusion : 2022-01-06

  • Articles et rapports : 11-522-X202100100013
    Description : L’Enquête sur la population active (EPA) de Statistique Canada joue un rôle fondamental dans le mandat de Statistique Canada. L’information sur le marché du travail fournie par l’EPA est l’une des mesures les plus actuelles et les plus importantes du rendement global de l’économie canadienne. Le codage de l'industrie du répondant selon le Système de classification des industries de l'Amérique du Nord (SCIAN), de la profession selon le Système de classification nationale des professions (CNP) et de la principale catégorie de travailleurs (PCDT) fait partie intégrante du traitement mensuel des données de l'EPA. Chaque mois, jusqu'à 20 000 enregistrements sont codés manuellement. En 2020, Statistique Canada a travaillé au développement de modèles d'apprentissage automatique utilisant fastText afin de coder les réponses au questionnaire de l'EPA selon les trois classifications mentionnées précédemment. Le présent article donnera un aperçu de la méthodologie développée et des résultats obtenus à partir d'une application potentielle de l'utilisation de fastText dans le processus de codage de l’EPA.

    Mots clés : apprentissage automatique; Enquête sur la population active; classification de texte; fastText.

    Date de diffusion : 2021-11-05

  • Articles et rapports : 89-648-X2020004
    Description :

    Le présent rapport technique a pour but de valider le module de la sécurité alimentaire de l'Étude longitudinale et internationale des adultes (ELIA) de 2018 (vague 4) et de fournir des recommandations qui seront utilisées aux fins d’analyse. La section 2 du rapport donne un aperçu des données de l’ELIA. La section 3 donne des renseignements de base quant aux mesures de la sécurité alimentaire dans les enquêtes nationales et explique pourquoi ces mesures sont importantes dans la documentation actuelle. La section 4 offre une analyse des données relatives à la sécurité alimentaire en présentant des statistiques descriptives clés et des contrôles logiques faisant appel à la méthodologie de l'ELIA et à des renseignements fournis par des chercheurs externes. Dans la section 5, la validation de certification a été effectuée en comparant d'autres enquêtes nationales canadiennes qui ont utilisé un module de la sécurité alimentaire avec le module utilisé dans l’ELIA. Enfin, la section 6 présente les observations clés et leur incidence quant à l’ELIA.

    Date de diffusion : 2020-11-02
Stats en bref (0)

Stats en bref (0) (0 résultat)

Aucun contenu disponible actuellement

Articles et rapports (71)

Articles et rapports (71) (0 à 10 de 71 résultats)

  • Articles et rapports : 11-522-X202200100003
    Description : L’estimation à de fins niveaux d’agrégation est nécessaire pour mieux décrire une société. Les approches fondées sur un modèle d’estimation sur petits domaines qui combinent des données d’enquête parcimonieuses à des données riches provenant de sources auxiliaires se sont révélées utiles pour améliorer la fiabilité des estimations sur petits domaines. Nous examinons ici un scénario où des estimations basées sur un modèle pour petits domaines, produit à un niveau d’agrégation donné, devaient être désagrégées pour mieux décrire la structure sociale à des niveaux plus fins. Pour ce scénario, nous avons élaboré une méthode de répartition afin de mettre en œuvre la désagrégation, surmontant les problèmes associés à la disponibilité des données et à l’élaboration de modèles à des niveaux de cette finesse. La méthode est appliquée à l’estimation de la littératie et de la numératie des adultes au niveau du comté par groupe, au moyen des données du Programme pour l’évaluation internationale des compétences des adultes (PEICA) des États-Unis. Dans cette application, les groupes sont définis en fonction de l’âge ou de la scolarité, mais la méthode pourrait être appliquée à l’estimation d’autres groupes en quête d’équité.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 12-001-X202300200001
    Description : Lorsqu’un fournisseur de soins de santé de Medicare est soupçonné de fraude liée à la facturation, on isole une population de paiements X versés à ce fournisseur sur une certaine période. Un examinateur médical agréé peut, dans un long processus, établir le trop-payé Y = X - (montant justifié par la preuve) pour chaque paiement. En temps normal, il y aura trop de paiements dans une population pour que chacun soit examiné avec soin, aussi prélève-t-on un échantillon probabiliste. Les trop-payés de cet échantillon servent alors à calculer une borne inférieure de l’intervalle de confiance de 90 % pour le trop-payé total de cette population. La borne correspond au montant exigé en recouvrement auprès du fournisseur. Malheureusement, les méthodes classiques de calcul de cette borne ne permettent parfois pas de dégager le niveau de confiance de 90 %, plus particulièrement lorsqu’on utilise un échantillon stratifié.

    Dans le présent document, nous présentons et décrivons 166 échantillons épurés tirés des enquêtes au sujet de l’intégrité de Medicare qui comportent 156 populations de paiements correspondantes. Les 7 588 paires échantillonnées (Y, X) indiquent 1) que les vérifications réalisées au sein de Medicare affichent des taux d’erreur élevés : plus de 76 % des paiements en question sont considérés comme étant des erreurs. Elles indiquent aussi 2) que les configurations de ces échantillons vont dans le sens d’un modèle de mélange « tout ou rien » pour (Y, X) qui est déjà défini dans les études spécialisées. Nous analysons des procédures de test de Monte Carlo fondées sur un modèle pour les plans de sondage de Medicare, ainsi que des méthodes de stratification fondées sur les moments anticipés du modèle. Pour la viabilité (atteinte d’un niveau de confiance de 90 %), nous définissons dans le présent article une nouvelle méthode de stratification qui rivalise avec les meilleures parmi de nombreuses méthodes existantes et qui semble moins sensible au choix de paramètres d’exploitation. Pour ce qui est du recouvrement des trop-payés (ce qui équivaut à une mesure de la précision), la nouvelle méthode se compare aussi aux meilleures parmi les nombreuses méthodes expérimentées. Malheureusement, aucun algorithme de stratification mis à l’essai ne s’est révélé viable pour plus de la moitié environ des 104 populations visées par l’essai.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300200004
    Description : Nous présentons une nouvelle méthodologie pour réconcilier des estimations des totaux des superficies cultivées au niveau du comté à un total prédéfini au niveau de l’État soumis à des contraintes d’inégalité et à des variances aléatoires dans le modèle de Fay-Herriot. Pour la superficie ensemencée du National Agricultural Statistics Service (NASS), un organisme du ministère de l’Agriculture des États-Unis (USDA), il est nécessaire d’intégrer la contrainte selon laquelle les totaux estimés, dérivés de données d’enquête et d’autres données auxiliaires, ne sont pas inférieurs aux totaux administratifs de la superficie ensemencée préenregistrés par d’autres organismes du USDA, à l’exception de NASS. Ces totaux administratifs sont considérés comme fixes et connus, et cette exigence de cohérence supplémentaire ajoute à la complexité de la réconciliation des estimations au niveau du comté. Une analyse entièrement bayésienne du modèle de Fay-Herriot offre un moyen intéressant d’intégrer les contraintes d’inégalité et de réconciliation et de quantifier les incertitudes qui en résultent, mais l’échantillonnage à partir des densités a posteriori comprend une intégration difficile; des approximations raisonnables doivent être faites. Tout d’abord, nous décrivons un modèle à rétrécissement unique, qui rétrécit les moyennes lorsque l’on suppose que les variances sont connues. Ensuite, nous élargissons ce modèle pour tenir compte du rétrécissement double par l’emprunt d’information dans les moyennes et les variances. Ce modèle élargi comporte deux sources de variation supplémentaire; toutefois, comme nous rétrécissons à la fois les moyennes et les variances, ce second modèle devrait avoir un meilleur rendement sur le plan de la qualité de l’ajustement (fiabilité) et, possiblement, sur le plan de la précision. Les calculs sont difficiles pour les deux modèles, qui sont appliqués à des ensembles de données simulées dont les propriétés ressemblent à celles des cultures de maïs de l’Illinois.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 82-003-X202301200002
    Description : La validité des estimations de la survie fondées sur les données des registres du cancer découle en partie du repérage des décès de personnes atteintes de cancer. Les personnes dont le décès n’est pas repéré semblent vivre éternellement et sont informellement appelées « immortelles ». Leur présence dans les données des registres peut entraîner des estimations de survie exagérées. L’étude évalue l’enjeu des immortels dans le Registre canadien du cancer au moyen d’une méthode proposée qui permet de comparer la survie des survivants à long terme du cancer pour lesquels un remède « statistique » a été déclaré avec celle d’autres personnes similaires issues de la population générale.
    Date de diffusion : 2023-12-20

  • Articles et rapports : 12-001-X202200200004
    Description :

    Cet exposé vise à approfondir l’examen de Wu sur l’inférence à partir d’échantillons non probabilistes, ainsi qu’à mettre en évidence les aspects qui constituent probablement d’autres pistes de recherche utiles. Elle se termine par un appel en faveur d’un registre organisé d’enquêtes probabilistes de grande qualité qui visera à fournir des renseignements utiles à l’ajustement d’enquêtes non probabilistes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200100005
    Description :

    Les études méthodologiques des effets des intervieweurs humains sur la qualité des données d’enquête ont longtemps été limitées par une hypothèse critique selon laquelle les intervieweurs d’une enquête donnée sont attribués à des sous-ensembles aléatoires de l’échantillon global plus important (également connu sous le nom d’attribution imbriquée). En l’absence de ce type de conception d’étude, les estimations des effets de l’intervieweur sur les mesures d’intérêt de l’enquête, plutôt que les effets de recrutement ou de mesure spécifiquement introduits par les intervieweurs, peuvent refléter des différences entre les intervieweurs dans les caractéristiques des membres de l’échantillon qui leur sont assignés. Les tentatives précédentes d’approximation de l’attribution imbriquée se sont généralement appuyées sur des modèles de régression pour conditionner les facteurs qui pourraient être liés à l’attribution des intervieweurs. Nous proposons une nouvelle approche pour surmonter ce manque d’attribution imbriquée lors de l’estimation des effets de l’intervieweur. Cette approche, que nous appelons la « méthode d’ancrage », tire avantage des corrélations entre les variables observées qui sont peu susceptibles d’être influencées par les intervieweurs (« ancres ») et les variables qui peuvent être sujettes aux effets de l’intervieweur, et ce, afin d’éliminer les composantes des corrélations induites par l’intervieweur que l’absence d’attribution imbriquée peut engendrer. Nous tenons compte à la fois des approches fréquentistes et bayésiennes, ces dernières pouvant utiliser des renseignements sur les variances de l’effet de l’intervieweur dans les précédents ensembles de données d’une étude, s’ils sont disponibles. Nous évaluons cette nouvelle méthodologie de manière empirique à l’aide d’une étude par simulation, puis nous illustrons son application au moyen de données d’enquête réelles provenant du Behavioral Risk Factor Surveillance System (BRFSS), où les identifiants des intervieweurs sont fournis dans les fichiers de données à grande diffusion. Bien que la méthode que nous proposons partage certaines des limites de l’approche traditionnelle, à savoir le besoin de variables associées au résultat d’intérêt qui sont également exemptes d’erreur de mesure, elle permet d’éviter le besoin d’inférence conditionnelle et présente donc de meilleures qualités inférentielles lorsque l’accent est mis sur les estimations marginales. Elle montre également des signes de réduction supplémentaire de la surestimation des effets plus importants de l’intervieweur par rapport à l’approche traditionnelle.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X202100200004
    Description :

    L’article présente une étude comparative de trois méthodes de construction d’intervalles de confiance pour la moyenne et les quantiles à partir de données d’enquête en présence de non-réponse. Ces méthodes, à savoir la vraisemblance empirique, la linéarisation et la méthode de Woodruff (1952), ont été appliquées à des données sur le revenu tirées de l’Enquête intercensitaire mexicaine de 2015 et à des données simulées. Un modèle de propension à répondre a servi à ajuster les poids d’échantillonnage, et les performances empiriques des méthodes ont été évaluées en fonction de la couverture des intervalles de confiance au moyen d’études par simulations. Les méthodes de vraisemblance empirique et de linéarisation ont donné de bonnes performances pour la moyenne, sauf quand la variable d’intérêt avait des valeurs extrêmes. Pour les quantiles, la méthode de linéarisation s’est montrée peu performante; les méthodes de vraisemblance empirique et de Woodruff ont donné de meilleurs résultats, mais sans atteindre la couverture nominale quand la variable d’intérêt avait des valeurs à haute fréquence proches du quantile d’intérêt.

    Date de diffusion : 2022-01-06

  • Articles et rapports : 12-001-X202100200006
    Description :

    Le calage fondé sur l’échantillon se produit quand les poids d’une enquête sont calés pour contrôler les totaux aléatoires, au lieu de représenter les totaux fixes au niveau de la population. Les totaux de contrôle peuvent être estimés à partir de différentes phases de la même enquête ou d’une autre enquête. En cas de calage fondé sur l’échantillon, pour que l’estimation de la variance soit valide, il est nécessaire de tenir compte de la contribution de l’erreur due à l’estimation des totaux de contrôle. Nous proposons une nouvelle méthode d’estimation de la variance qui utilise directement les poids de rééchantillonnage de deux enquêtes, dont une sert à fournir des totaux de contrôle pour le calage des autres poids d’enquête. Aucune restriction n’est établie quant à la nature des deux méthodes de rééchantillonnage et il n’est pas nécessaire de calculer d’estimation de la variance-covariance, ce qui simplifie la mise en œuvre pratique de la méthode proposée. Nous fournissons la description générale de la méthode utilisée pour les enquêtes comportant deux méthodes de rééchantillonnage arbitraire avec un nombre de répliques différent. Il est démontré que l’estimateur de la variance obtenu est convergent pour la variance asymptotique de l’estimateur calé, quand le calage est effectué au moyen de l’estimation par la régression ou la méthode itérative du quotient (raking). La méthode est illustrée dans une application réelle, dans laquelle il faut harmoniser la composition démographique de deux enquêtes pour améliorer la comparabilité des estimations de l’enquête.

    Date de diffusion : 2022-01-06

  • Articles et rapports : 11-522-X202100100013
    Description : L’Enquête sur la population active (EPA) de Statistique Canada joue un rôle fondamental dans le mandat de Statistique Canada. L’information sur le marché du travail fournie par l’EPA est l’une des mesures les plus actuelles et les plus importantes du rendement global de l’économie canadienne. Le codage de l'industrie du répondant selon le Système de classification des industries de l'Amérique du Nord (SCIAN), de la profession selon le Système de classification nationale des professions (CNP) et de la principale catégorie de travailleurs (PCDT) fait partie intégrante du traitement mensuel des données de l'EPA. Chaque mois, jusqu'à 20 000 enregistrements sont codés manuellement. En 2020, Statistique Canada a travaillé au développement de modèles d'apprentissage automatique utilisant fastText afin de coder les réponses au questionnaire de l'EPA selon les trois classifications mentionnées précédemment. Le présent article donnera un aperçu de la méthodologie développée et des résultats obtenus à partir d'une application potentielle de l'utilisation de fastText dans le processus de codage de l’EPA.

    Mots clés : apprentissage automatique; Enquête sur la population active; classification de texte; fastText.

    Date de diffusion : 2021-11-05

  • Articles et rapports : 89-648-X2020004
    Description :

    Le présent rapport technique a pour but de valider le module de la sécurité alimentaire de l'Étude longitudinale et internationale des adultes (ELIA) de 2018 (vague 4) et de fournir des recommandations qui seront utilisées aux fins d’analyse. La section 2 du rapport donne un aperçu des données de l’ELIA. La section 3 donne des renseignements de base quant aux mesures de la sécurité alimentaire dans les enquêtes nationales et explique pourquoi ces mesures sont importantes dans la documentation actuelle. La section 4 offre une analyse des données relatives à la sécurité alimentaire en présentant des statistiques descriptives clés et des contrôles logiques faisant appel à la méthodologie de l'ELIA et à des renseignements fournis par des chercheurs externes. Dans la section 5, la validation de certification a été effectuée en comparant d'autres enquêtes nationales canadiennes qui ont utilisé un module de la sécurité alimentaire avec le module utilisé dans l’ELIA. Enfin, la section 6 présente les observations clés et leur incidence quant à l’ELIA.

    Date de diffusion : 2020-11-02
Revues et périodiques (0)

Revues et périodiques (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :