Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Auteur(s)

101 facets displayed. 1 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (147)

Tout (147) (0 à 10 de 147 résultats)

  • Articles et rapports : 11-522-X202200100001
    Description : Le couplage d’enregistrements vise à mettre en évidence les paires d’enregistrements liées à la même unité et observées dans deux ensembles de données différents, disons A et B. Fellegi et Sunter (1969) proposent de mettre à l’essai chaque paire d’enregistrements, qu’elle soit générée à partir de l’ensemble de paires appariées ou non. La fonction de décision est le rapport entre m(y) et u(y), les probabilités d’observer une comparaison y d’un ensemble de k>3 variables d’identification clés dans une paire d’enregistrements, sous l’hypothèse que la paire constitue, respectivement, un appariement ou non. On estime habituellement ces paramètres au moyen de l’algorithme EM en utilisant comme données les comparaisons pour toutes les paires du produit cartésien ?=A×B. On émet l’hypothèse que ces observations (sur les comparaisons et sur l’état des paires comme appariement ou non) sont générées indépendamment des autres paires, hypothèse caractérisant la majeure partie de la littérature sur le couplage d’enregistrements et mise en œuvre dans les outils logiciels (p. ex., RELAIS, Cibella et coll. 2012). Au contraire, les comparaisons y et l’état d’appariement dans O sont dépendants de manière déterministe. Par conséquent, les estimations sur m(y) et u(y) fondées sur l’algorithme EM sont généralement mauvaises. Ce fait compromet l’efficacité de l’application de la méthode de Fellegi-Sunter, ainsi que le calcul automatique des mesures de la qualité et la possibilité d’appliquer des méthodes efficaces aux fins d’estimation du modèle sur des données couplées (p. ex. les fonctions de régression), comme dans Chambers et coll. (2015). Nous proposons d’examiner O au moyen d’un ensemble d’échantillons, chacun tiré de manière à préserver l’indépendance des comparaisons entre les paires d’enregistrements sélectionnées. Les simulations sont encourageantes.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 11-522-X202200100004
    Description : Conformément au Plan d’action sur les données désagrégées (PADD) à long terme de Statistique Canada, plusieurs initiatives ont été mises en œuvre dans l’Enquête sur la population active (EPA). Une des initiatives les plus directes fut une augmentation ciblée dans la taille de l’échantillon mensuel de l’EPA. En outre, un programme d’enquête supplémentaire régulier a été introduit, où une série supplémentaire de questions a été posée à un sous-ensemble de répondants de l’EPA et analysée dans un cycle de production mensuel ou trimestriel. Enfin, les estimations fondées sur les méthodologies de l’estimation sur petits domaines (EPD) sont réintroduites dans l’EPA et comprendront une portée élargie avec davantage de valeur analytique qu’auparavant. Le présent article donne un aperçu de ces trois initiatives.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 12-001-X202300200009
    Description : Dans le présent article, nous examinons la façon dont une grande base de données non probabiliste peut servir à améliorer des estimations de totaux de population finie d’un petit échantillon probabiliste grâce aux techniques d’intégration de données. Dans le cas où la variable d’intérêt est observée dans les deux sources de données, Kim et Tam (2021) ont proposé deux estimateurs convergents par rapport au plan de sondage qui peuvent être justifiés par la théorie des enquêtes à double base de sondage. D’abord, nous posons des conditions garantissant que les estimateurs en question seront plus efficaces que l’estimateur de Horvitz-Thompson lorsque l’échantillon probabiliste est sélectionné par échantillonnage de Poisson ou par échantillonnage aléatoire simple sans remise. Ensuite, nous étudions la famille des prédicteurs QR proposée par Särndal et Wright (1984) pour le cas moins courant où la base de données non probabiliste ne contient pas la variable d’intérêt, mais des variables auxiliaires. Une autre exigence est que la base non probabiliste soit vaste et puisse être couplée avec l’échantillon probabiliste. Les conditions que nous posons font que le prédicteur QR est asymptotiquement sans biais par rapport au plan de sondage. Nous calculons sa variance asymptotique sous le plan de sondage et présentons un estimateur de variance convergent par rapport au plan de sondage. Nous comparons les propriétés par rapport au plan de sondage de différents prédicteurs de la famille des prédicteurs QR dans une étude par simulation. La famille comprend un prédicteur fondé sur un modèle, un estimateur assisté par un modèle et un estimateur cosmétique. Dans nos scénarios de simulation, l’estimateur cosmétique a donné des résultats légèrement supérieurs à ceux de l’estimateur assisté par un modèle. Nos constatations sont confirmées par une application aux données de La Poste, laquelle illustre par ailleurs que les propriétés de l’estimateur cosmétique sont conservées indépendamment de l’échantillon non probabiliste observé.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300100008
    Description : Ce bref hommage vise à souligner les principales réalisations scientifiques de Chris Skinner.
    Date de diffusion : 2023-06-30

  • Articles et rapports : 12-001-X202300100009
    Description : Le présent article présente des méthodes d’échantillonnage adaptatif proportionnel à la taille, avec et sans remise. Des estimateurs sans biais y sont élaborés pour ces méthodes et leurs propriétés sont étudiées. Dans les deux versions, les probabilités de tirage sont adaptées pendant le processus d’échantillonnage à partir des observations déjà sélectionnées. À cette fin, dans la méthode avec remise, après chaque tirage et chaque observation de la variable d’intérêt, le vecteur de la variable auxiliaire sera mis à jour au moyen des valeurs observées de la variable d’intérêt pour que soit estimée la probabilité de sélection exacte proportionnelle à la taille. Dans la méthode sans remise, tout d’abord, à l’aide d’un échantillon initial, nous modélisons la relation entre la variable d’intérêt et la variable auxiliaire. Puis, en utilisant cette relation, nous estimons les unités de population inconnues (non observées). Enfin, à partir de ces unités de population estimées, nous sélectionnons un nouvel échantillon proportionnel à la taille sans remise. Ces méthodes peuvent améliorer considérablement l’efficacité des plans, non seulement dans le cas d’une relation linéaire positive, mais aussi dans le cas d’une relation non linéaire ou d’une relation linéaire négative entre variables. Nous étudions l’efficacité des plans au moyen de simulations et d’études de cas réels sur les plantes médicinales ainsi qu’au moyen de données sociales et économiques.
    Date de diffusion : 2023-06-30

  • Articles et rapports : 12-001-X202200200009
    Description :

    L’imputation multiple est une approche populaire pour traiter les données manquantes découlant de la non-réponse dans les enquêtes-échantillons. L’imputation multiple au moyen d’équations en séries (MICE) est l’un des algorithmes d’imputation multiple les plus utilisés pour les données multivariées, mais son fondement théorique est insuffisant et elle exige beaucoup de calculs. Récemment, des méthodes d’imputation des données manquantes fondées sur des modèles d’apprentissage profond ont été élaborées, ce qui a donné des résultats encourageants dans de petites études. Cependant, peu de recherches ont été menées sur l’évaluation de leur rendement dans des contextes réalistes par rapport à la MICE, en particulier dans le cadre de grandes enquêtes. Nous menons de vastes études de simulation fondées sur un sous-échantillon de l’American Community Survey afin de comparer les propriétés d’échantillonnage répété de quatre méthodes d’apprentissage automatique fondées sur l’imputation multiple : MICE avec arbres de classification; MICE avec forêts aléatoires; réseaux antagonistes génératifs pour l’imputation; et imputation multiple à l’aide d’autoencodeurs débruiteurs. Nous constatons que les méthodes d’imputation fondées sur des modèles d’apprentissage profond sont plus efficaces que la MICE en ce qui a trait au temps de calcul. Cependant, étant donné le choix par défaut des hyperparamètres dans les progiciels communs, la MICE avec arbres de classification dépasse constamment, souvent de loin, les méthodes d’imputation fondées sur l’apprentissage profond quant au biais, à l’erreur quadratique moyenne et à la couverture dans une gamme de paramètres réalistes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200100010
    Description :

    La présente étude combine le recuit simulé avec l’évaluation delta pour résoudre le problème de stratification et de répartition simultanée de l’échantillon. Dans ce problème particulier, les strates atomiques sont divisées en strates mutuellement exclusives et collectivement exhaustives. Chaque partition de strates atomiques est une solution possible au problème de stratification, dont la qualité est mesurée par son coût. Le nombre de Bell de solutions possibles est énorme, même pour un nombre modéré de strates atomiques, et une couche supplémentaire de complexité s’ajoute avec le temps d’évaluation de chaque solution. De nombreux problèmes d’optimisation combinatoire à grande échelle ne peuvent être résolus de manière optimale, car la recherche d’une solution optimale exige un temps de calcul prohibitif. Un certain nombre d’algorithmes heuristiques de recherche locale ont été conçus pour résoudre problème, mais ils peuvent rester coincés dans des minima locaux, ce qui empêche toute amélioration ultérieure. Nous ajoutons, à la suite existante d’algorithmes de recherche locale, un algorithme du recuit simulé qui permet de s’échapper des minima locaux et s’appuie sur l’évaluation delta pour exploiter la similarité entre des solutions consécutives, et ainsi réduire le temps d’évaluation. Nous avons comparé l’algorithme du recuit simulé avec deux algorithmes récents. Dans les deux cas, l’algorithme du recuit simulé a permis d’obtenir une solution de qualité comparable en beaucoup moins de temps de calcul.

    Date de diffusion : 2022-06-21

  • Stats en bref : 89-20-00082021001
    Description : Cette vidéo fait partie de la série de soutien au contrôle de confidentialité et présente des exemples d’utilisation de SAS pour réaliser des tests de dominance et d'homogénéité du recensement.
    Date de diffusion : 2022-04-29

  • Stats en bref : 89-20-00082021002
    Description : Cette vidéo fait partie de la série de soutien au contrôle de confidentialité et présente des exemples d’utilisation de SAS pour générer des sorties de proportions pour les chercheurs travaillant avec des données confidentielles.
    Date de diffusion : 2022-04-27

  • Stats en bref : 89-20-00082021003
    Description : Cette vidéo fait partie de la série de soutien au contrôle de confidentialité et présente des exemples d’utilisation de Stata pour générer des sorties de proportions pour les chercheurs travaillant avec des données confidentielles.
    Date de diffusion : 2022-04-27
Stats en bref (6)

Stats en bref (6) ((6 résultats))

Articles et rapports (141)

Articles et rapports (141) (0 à 10 de 141 résultats)

  • Articles et rapports : 11-522-X202200100001
    Description : Le couplage d’enregistrements vise à mettre en évidence les paires d’enregistrements liées à la même unité et observées dans deux ensembles de données différents, disons A et B. Fellegi et Sunter (1969) proposent de mettre à l’essai chaque paire d’enregistrements, qu’elle soit générée à partir de l’ensemble de paires appariées ou non. La fonction de décision est le rapport entre m(y) et u(y), les probabilités d’observer une comparaison y d’un ensemble de k>3 variables d’identification clés dans une paire d’enregistrements, sous l’hypothèse que la paire constitue, respectivement, un appariement ou non. On estime habituellement ces paramètres au moyen de l’algorithme EM en utilisant comme données les comparaisons pour toutes les paires du produit cartésien ?=A×B. On émet l’hypothèse que ces observations (sur les comparaisons et sur l’état des paires comme appariement ou non) sont générées indépendamment des autres paires, hypothèse caractérisant la majeure partie de la littérature sur le couplage d’enregistrements et mise en œuvre dans les outils logiciels (p. ex., RELAIS, Cibella et coll. 2012). Au contraire, les comparaisons y et l’état d’appariement dans O sont dépendants de manière déterministe. Par conséquent, les estimations sur m(y) et u(y) fondées sur l’algorithme EM sont généralement mauvaises. Ce fait compromet l’efficacité de l’application de la méthode de Fellegi-Sunter, ainsi que le calcul automatique des mesures de la qualité et la possibilité d’appliquer des méthodes efficaces aux fins d’estimation du modèle sur des données couplées (p. ex. les fonctions de régression), comme dans Chambers et coll. (2015). Nous proposons d’examiner O au moyen d’un ensemble d’échantillons, chacun tiré de manière à préserver l’indépendance des comparaisons entre les paires d’enregistrements sélectionnées. Les simulations sont encourageantes.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 11-522-X202200100004
    Description : Conformément au Plan d’action sur les données désagrégées (PADD) à long terme de Statistique Canada, plusieurs initiatives ont été mises en œuvre dans l’Enquête sur la population active (EPA). Une des initiatives les plus directes fut une augmentation ciblée dans la taille de l’échantillon mensuel de l’EPA. En outre, un programme d’enquête supplémentaire régulier a été introduit, où une série supplémentaire de questions a été posée à un sous-ensemble de répondants de l’EPA et analysée dans un cycle de production mensuel ou trimestriel. Enfin, les estimations fondées sur les méthodologies de l’estimation sur petits domaines (EPD) sont réintroduites dans l’EPA et comprendront une portée élargie avec davantage de valeur analytique qu’auparavant. Le présent article donne un aperçu de ces trois initiatives.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 12-001-X202300200009
    Description : Dans le présent article, nous examinons la façon dont une grande base de données non probabiliste peut servir à améliorer des estimations de totaux de population finie d’un petit échantillon probabiliste grâce aux techniques d’intégration de données. Dans le cas où la variable d’intérêt est observée dans les deux sources de données, Kim et Tam (2021) ont proposé deux estimateurs convergents par rapport au plan de sondage qui peuvent être justifiés par la théorie des enquêtes à double base de sondage. D’abord, nous posons des conditions garantissant que les estimateurs en question seront plus efficaces que l’estimateur de Horvitz-Thompson lorsque l’échantillon probabiliste est sélectionné par échantillonnage de Poisson ou par échantillonnage aléatoire simple sans remise. Ensuite, nous étudions la famille des prédicteurs QR proposée par Särndal et Wright (1984) pour le cas moins courant où la base de données non probabiliste ne contient pas la variable d’intérêt, mais des variables auxiliaires. Une autre exigence est que la base non probabiliste soit vaste et puisse être couplée avec l’échantillon probabiliste. Les conditions que nous posons font que le prédicteur QR est asymptotiquement sans biais par rapport au plan de sondage. Nous calculons sa variance asymptotique sous le plan de sondage et présentons un estimateur de variance convergent par rapport au plan de sondage. Nous comparons les propriétés par rapport au plan de sondage de différents prédicteurs de la famille des prédicteurs QR dans une étude par simulation. La famille comprend un prédicteur fondé sur un modèle, un estimateur assisté par un modèle et un estimateur cosmétique. Dans nos scénarios de simulation, l’estimateur cosmétique a donné des résultats légèrement supérieurs à ceux de l’estimateur assisté par un modèle. Nos constatations sont confirmées par une application aux données de La Poste, laquelle illustre par ailleurs que les propriétés de l’estimateur cosmétique sont conservées indépendamment de l’échantillon non probabiliste observé.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300100008
    Description : Ce bref hommage vise à souligner les principales réalisations scientifiques de Chris Skinner.
    Date de diffusion : 2023-06-30

  • Articles et rapports : 12-001-X202300100009
    Description : Le présent article présente des méthodes d’échantillonnage adaptatif proportionnel à la taille, avec et sans remise. Des estimateurs sans biais y sont élaborés pour ces méthodes et leurs propriétés sont étudiées. Dans les deux versions, les probabilités de tirage sont adaptées pendant le processus d’échantillonnage à partir des observations déjà sélectionnées. À cette fin, dans la méthode avec remise, après chaque tirage et chaque observation de la variable d’intérêt, le vecteur de la variable auxiliaire sera mis à jour au moyen des valeurs observées de la variable d’intérêt pour que soit estimée la probabilité de sélection exacte proportionnelle à la taille. Dans la méthode sans remise, tout d’abord, à l’aide d’un échantillon initial, nous modélisons la relation entre la variable d’intérêt et la variable auxiliaire. Puis, en utilisant cette relation, nous estimons les unités de population inconnues (non observées). Enfin, à partir de ces unités de population estimées, nous sélectionnons un nouvel échantillon proportionnel à la taille sans remise. Ces méthodes peuvent améliorer considérablement l’efficacité des plans, non seulement dans le cas d’une relation linéaire positive, mais aussi dans le cas d’une relation non linéaire ou d’une relation linéaire négative entre variables. Nous étudions l’efficacité des plans au moyen de simulations et d’études de cas réels sur les plantes médicinales ainsi qu’au moyen de données sociales et économiques.
    Date de diffusion : 2023-06-30

  • Articles et rapports : 12-001-X202200200009
    Description :

    L’imputation multiple est une approche populaire pour traiter les données manquantes découlant de la non-réponse dans les enquêtes-échantillons. L’imputation multiple au moyen d’équations en séries (MICE) est l’un des algorithmes d’imputation multiple les plus utilisés pour les données multivariées, mais son fondement théorique est insuffisant et elle exige beaucoup de calculs. Récemment, des méthodes d’imputation des données manquantes fondées sur des modèles d’apprentissage profond ont été élaborées, ce qui a donné des résultats encourageants dans de petites études. Cependant, peu de recherches ont été menées sur l’évaluation de leur rendement dans des contextes réalistes par rapport à la MICE, en particulier dans le cadre de grandes enquêtes. Nous menons de vastes études de simulation fondées sur un sous-échantillon de l’American Community Survey afin de comparer les propriétés d’échantillonnage répété de quatre méthodes d’apprentissage automatique fondées sur l’imputation multiple : MICE avec arbres de classification; MICE avec forêts aléatoires; réseaux antagonistes génératifs pour l’imputation; et imputation multiple à l’aide d’autoencodeurs débruiteurs. Nous constatons que les méthodes d’imputation fondées sur des modèles d’apprentissage profond sont plus efficaces que la MICE en ce qui a trait au temps de calcul. Cependant, étant donné le choix par défaut des hyperparamètres dans les progiciels communs, la MICE avec arbres de classification dépasse constamment, souvent de loin, les méthodes d’imputation fondées sur l’apprentissage profond quant au biais, à l’erreur quadratique moyenne et à la couverture dans une gamme de paramètres réalistes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200100010
    Description :

    La présente étude combine le recuit simulé avec l’évaluation delta pour résoudre le problème de stratification et de répartition simultanée de l’échantillon. Dans ce problème particulier, les strates atomiques sont divisées en strates mutuellement exclusives et collectivement exhaustives. Chaque partition de strates atomiques est une solution possible au problème de stratification, dont la qualité est mesurée par son coût. Le nombre de Bell de solutions possibles est énorme, même pour un nombre modéré de strates atomiques, et une couche supplémentaire de complexité s’ajoute avec le temps d’évaluation de chaque solution. De nombreux problèmes d’optimisation combinatoire à grande échelle ne peuvent être résolus de manière optimale, car la recherche d’une solution optimale exige un temps de calcul prohibitif. Un certain nombre d’algorithmes heuristiques de recherche locale ont été conçus pour résoudre problème, mais ils peuvent rester coincés dans des minima locaux, ce qui empêche toute amélioration ultérieure. Nous ajoutons, à la suite existante d’algorithmes de recherche locale, un algorithme du recuit simulé qui permet de s’échapper des minima locaux et s’appuie sur l’évaluation delta pour exploiter la similarité entre des solutions consécutives, et ainsi réduire le temps d’évaluation. Nous avons comparé l’algorithme du recuit simulé avec deux algorithmes récents. Dans les deux cas, l’algorithme du recuit simulé a permis d’obtenir une solution de qualité comparable en beaucoup moins de temps de calcul.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X202100200004
    Description :

    L’article présente une étude comparative de trois méthodes de construction d’intervalles de confiance pour la moyenne et les quantiles à partir de données d’enquête en présence de non-réponse. Ces méthodes, à savoir la vraisemblance empirique, la linéarisation et la méthode de Woodruff (1952), ont été appliquées à des données sur le revenu tirées de l’Enquête intercensitaire mexicaine de 2015 et à des données simulées. Un modèle de propension à répondre a servi à ajuster les poids d’échantillonnage, et les performances empiriques des méthodes ont été évaluées en fonction de la couverture des intervalles de confiance au moyen d’études par simulations. Les méthodes de vraisemblance empirique et de linéarisation ont donné de bonnes performances pour la moyenne, sauf quand la variable d’intérêt avait des valeurs extrêmes. Pour les quantiles, la méthode de linéarisation s’est montrée peu performante; les méthodes de vraisemblance empirique et de Woodruff ont donné de meilleurs résultats, mais sans atteindre la couverture nominale quand la variable d’intérêt avait des valeurs à haute fréquence proches du quantile d’intérêt.

    Date de diffusion : 2022-01-06

  • Articles et rapports : 11-522-X202100100025
    Description :

    Nous proposons une analyse longitudinale selon un point de vue lié aux changements organisationnels intervenus à l’Institut national italien de statistique ces dernières années. En 2016, l’Institut a mis en place une nouvelle direction, en vue d’uniformiser et de généraliser le processus opérationnel de la collecte de données conformément à la norme européenne du modèle GAMSO. Dans cette étude, nous discutons des avantages et des inconvénients de ce changement du point de vue de la participation aux enquêtes. L’analyse du taux de réponse aux enquêtes sur les TIC révèle une hausse d’environ 20 % depuis le début de la nouvelle organisation : le présent article tente de se concentrer sur les répercussions des changements apportés avec la nouvelle organisation. Nous nous sommes concentrés sur deux sous-ensembles donnés de répondants : celui appelé des « personnes recherchées », à savoir celles n’ayant jamais répondu à une enquête sur les TIC ni à toute autre enquête de l’ISTAT, d’une part, et le sous-ensemble des personnes dites « perdues », qui étaient incluses dans les échantillons de deux enquêtes consécutives et qui ont répondu à l’édition précédente, mais pas à l’édition actuelle. Cette étude vise à illustrer la façon dont l’organisation efficace de la collecte de données améliore les résultats de l’enquête ainsi que le type de mesures qui devraient être prises pour attirer l’attention des « personnes recherchées ». Enfin, nous appliquons un modèle logistique qui mesure la probabilité qu’une entreprise ayant répondu en 2018 (t-1) réponde également en 2019 (t). De plus, l’analyse suggère des mesures qui pourraient être prises pour améliorer la participation des répondants, la qualité des données ainsi que la perception qu’ont les répondants des statistiques officielles.

    Mots clés : stratégie de collecte des données; taux de réponse; paradonnées; fardeau de réponse; enquête sur les TIC.

    Date de diffusion : 2021-10-29

  • Articles et rapports : 11-522-X202100100007
    Description : Le National Center for Health Statistics (NCHS) des États-Unis réalise chaque année la National Ambulatory Medical Care Survey (NAMCS), afin d’évaluer les caractéristiques des cabinets ainsi que les soins ambulatoires fournis par les médecins de cabinets médicaux aux États-Unis, y compris à l’aide d’interviews d’un échantillon de médecins. Après le début de la pandémie de COVID-19, le NCHS a adapté la méthodologie du NAMCS pour évaluer les répercussions de la COVID-19 sur les médecins de cabinets médicaux, y compris les pénuries d’équipement de protection individuelle, les tests de dépistage de la COVID-19 dans les cabinets médicaux, les prestataires recevant un diagnostic positif à la COVID-19 et le recours à la télémédecine au cours de la pandémie. Le présent article décrit les défis et les possibilités liés à la réalisation de l’enquête NAMCS de 2020 et présente les principales conclusions concernant l’expérience des médecins pendant la pandémie de COVID-19.

    Mots clés : National Ambulatory Medical Care Survey (NAMCS, Enquête nationale sur les soins médicaux ambulatoires); médecins en cabinet médical; télémédecine; équipement de protection individuelle.

    Date de diffusion : 2021-10-22
Revues et périodiques (0)

Revues et périodiques (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :