Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (92)

Tout (92) (0 à 10 de 92 résultats)

  • Articles et rapports : 11-522-X202200100017
    Description : Dans le présent document, nous recherchons la présence d’hétérogénéité dans la réalisation des évaluations de l’impact de l’intervention en développement des compétences offerte dans le cadre des Ententes sur le développement du marché du travail. Nous utilisons des données administratives longitudinales couplées couvrant un échantillon de personnes ayant participé au développement des compétences de 2010 à 2017. Nous appliquons un estimateur causal d’apprentissage automatique comme dans Lechner (2019) pour estimer les impacts individualisés du programme au niveau d’agrégation à la granularité la plus fine. Ces impacts granulaires révèlent la répartition des impacts nets, ce qui permet de plus facilement étudier les éléments pour déterminer les plus efficaces pour chaque personne. Les résultats montrent des améliorations statistiquement significatives des résultats sur le marché du travail pour les participants en général et pour les sous-groupes d’intérêt stratégique.
    Date de diffusion : 2024-06-28

  • Articles et rapports : 11-522-X202200100008
    Description : La publication de davantage de données présentant un niveau élevé de désagrégation peut accroître la transparence et fournir des renseignements importants sur les groupes sous-représentés. L’élaboration d’options d’accès plus facilement disponibles augmente la quantité d’information disponible et produite par les chercheurs. Accroître l’étendue et la profondeur de l’information diffusée permet une meilleure représentation de la population canadienne, mais impose également à Statistique Canada une plus grande responsabilité quant à la manière dont cela est fait, qui se doit de préserver la confidentialité; il est donc utile d’élaborer des outils qui nous permettent de quantifier le risque lié à la granularité accrue des données. Afin d’évaluer le risque d’une attaque par reconstruction de base de données sur les données de recensement publiées par Statistique Canada, nous appliquons la stratégie de l’U.S. Census Bureau, qui met en avant une méthode utilisant un solveur de satisfaisabilité booléenne (SAT) pour reconstruire les attributs individuels des résidents d’un îlot hypothétique du recensement américain, basé uniquement sur un tableau de statistiques récapitulatives. Nous prévoyons d’étendre cette technique pour tenter de reconstruire une petite fraction des microdonnées de recensement de Statistique Canada. Dans cet article, nous aborderons nos conclusions, les défis liés à l’élaboration d’une attaque par reconstruction et l’effet d’une mesure de confidentialité existante pour atténuer ces attaques. En outre, nous comparerons notre stratégie actuelle à d’autres méthodes potentielles utilisées aux fins de protection des données, en particulier la publication de données tabulaires perturbées par un mécanisme aléatoire, tel que la confidentialité différentielle.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 11-522-X202200100013
    Description : Les répondants des enquêtes auprès des ménages usuelles tendent à fortement sous-déclarer leur éventuel recours à l'aide alimentaire distribuée par les associations. Cette sous-déclaration est très vraisemblablement liée au stigmate social ressenti par les personnes dans une situation de très grandes difficultés financières. Les estimations du nombre de bénéficiaires de cette aide issues des enquêtes sont ainsi très inférieures aux décomptes directs des associations. Ces décomptes, eux, tendent à la surestimation en raison de doubles comptes. L'enquête Aide alimentaire (EAA) collectée fin 2021 en France dans un échantillon de sites d'associations distribuant de l'aide alimentaire permet, par son protocole adapté, de contrôler les biais qui affectent les autres sources et de clarifier l'ampleur du recours à cette aide.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 12-001-X202300200017
    Description : Jean-Claude Deville, décédé en octobre 2021, fut l’un des chercheurs les plus influents dans le domaine la statistique d’enquête au cours des quarante dernières années. Cet article retrace certaines de ses contributions qui ont eu un profond impact, tant sur la théorie que sur la pratique des enquêtes. Cet article abordera les sujets suivants : l’échantillonnage équilibré au moyen de la méthode du cube, le calage, la méthode du partage des poids, le développement des expressions de la variance d’estimateurs complexes au moyen de la fonction d’influence et l’échantillonnage par quotas.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202200200009
    Description :

    L’imputation multiple est une approche populaire pour traiter les données manquantes découlant de la non-réponse dans les enquêtes-échantillons. L’imputation multiple au moyen d’équations en séries (MICE) est l’un des algorithmes d’imputation multiple les plus utilisés pour les données multivariées, mais son fondement théorique est insuffisant et elle exige beaucoup de calculs. Récemment, des méthodes d’imputation des données manquantes fondées sur des modèles d’apprentissage profond ont été élaborées, ce qui a donné des résultats encourageants dans de petites études. Cependant, peu de recherches ont été menées sur l’évaluation de leur rendement dans des contextes réalistes par rapport à la MICE, en particulier dans le cadre de grandes enquêtes. Nous menons de vastes études de simulation fondées sur un sous-échantillon de l’American Community Survey afin de comparer les propriétés d’échantillonnage répété de quatre méthodes d’apprentissage automatique fondées sur l’imputation multiple : MICE avec arbres de classification; MICE avec forêts aléatoires; réseaux antagonistes génératifs pour l’imputation; et imputation multiple à l’aide d’autoencodeurs débruiteurs. Nous constatons que les méthodes d’imputation fondées sur des modèles d’apprentissage profond sont plus efficaces que la MICE en ce qui a trait au temps de calcul. Cependant, étant donné le choix par défaut des hyperparamètres dans les progiciels communs, la MICE avec arbres de classification dépasse constamment, souvent de loin, les méthodes d’imputation fondées sur l’apprentissage profond quant au biais, à l’erreur quadratique moyenne et à la couverture dans une gamme de paramètres réalistes.

    Date de diffusion : 2022-12-15

  • Stats en bref : 89-20-00082021001
    Description : Cette vidéo fait partie de la série de soutien au contrôle de confidentialité et présente des exemples d’utilisation de SAS pour réaliser des tests de dominance et d'homogénéité du recensement.
    Date de diffusion : 2022-04-29

  • Stats en bref : 89-20-00082021002
    Description : Cette vidéo fait partie de la série de soutien au contrôle de confidentialité et présente des exemples d’utilisation de SAS pour générer des sorties de proportions pour les chercheurs travaillant avec des données confidentielles.
    Date de diffusion : 2022-04-27

  • Stats en bref : 89-20-00082021003
    Description : Cette vidéo fait partie de la série de soutien au contrôle de confidentialité et présente des exemples d’utilisation de Stata pour générer des sorties de proportions pour les chercheurs travaillant avec des données confidentielles.
    Date de diffusion : 2022-04-27

  • Stats en bref : 89-20-00082021004
    Description : Cette vidéo fait partie de la série de soutien au contrôle de confidentialité et présente des exemples d’utilisation de Stata pour réaliser des tests de dominance et d'homogénéité du recensement.
    Date de diffusion : 2022-04-27

  • Stats en bref : 89-20-00082021005
    Description : Cette vidéo fait partie de la série de soutien au contrôle de confidentialité et présente des exemples d’utilisation de R pour générer des sorties de proportions pour les chercheurs travaillant avec des données confidentielles.
    Date de diffusion : 2022-04-27
Stats en bref (8)

Stats en bref (8) ((8 résultats))

  • Stats en bref : 89-20-00082021001
    Description : Cette vidéo fait partie de la série de soutien au contrôle de confidentialité et présente des exemples d’utilisation de SAS pour réaliser des tests de dominance et d'homogénéité du recensement.
    Date de diffusion : 2022-04-29

  • Stats en bref : 89-20-00082021002
    Description : Cette vidéo fait partie de la série de soutien au contrôle de confidentialité et présente des exemples d’utilisation de SAS pour générer des sorties de proportions pour les chercheurs travaillant avec des données confidentielles.
    Date de diffusion : 2022-04-27

  • Stats en bref : 89-20-00082021003
    Description : Cette vidéo fait partie de la série de soutien au contrôle de confidentialité et présente des exemples d’utilisation de Stata pour générer des sorties de proportions pour les chercheurs travaillant avec des données confidentielles.
    Date de diffusion : 2022-04-27

  • Stats en bref : 89-20-00082021004
    Description : Cette vidéo fait partie de la série de soutien au contrôle de confidentialité et présente des exemples d’utilisation de Stata pour réaliser des tests de dominance et d'homogénéité du recensement.
    Date de diffusion : 2022-04-27

  • Stats en bref : 89-20-00082021005
    Description : Cette vidéo fait partie de la série de soutien au contrôle de confidentialité et présente des exemples d’utilisation de R pour générer des sorties de proportions pour les chercheurs travaillant avec des données confidentielles.
    Date de diffusion : 2022-04-27

  • Stats en bref : 89-20-00082021006
    Description : Cette vidéo fait partie de la série de soutien au contrôle de confidentialité et présente des exemples d’utilisation de R pour réaliser des tests de dominance et d'homogénéité du recensement.
    Date de diffusion : 2022-04-27

  • Stats en bref : 11-627-M2020072
    Description :

    Cette infographie donne un aperçu de la classification canadienne de la recherche et développement (CCRD), une norme nationale développée conjointement par la Fondation canadienne pour l'innovation (FCI), les Instituts de recherche en santé du Canada (IRSC), le Conseil de recherches en sciences naturelles et en génie du Canada (CRSNG), le Conseil de recherches en sciences humaines du Canada (CRSH) et Statistique Canada.

    Date de diffusion : 2020-10-05

  • Stats en bref : 11-627-M2020051
    Description :

    Cette infographie donne un aperçu des normes statistiques nationales et explique ce qu'elles sont, où elles sont utilisées, les avantages de leur utilisation et le rôle qu'elles jouent dans la collecte et la diffusion de données ventilées.

    Date de diffusion : 2020-07-24
Articles et rapports (83)

Articles et rapports (83) (0 à 10 de 83 résultats)

  • Articles et rapports : 11-522-X202200100017
    Description : Dans le présent document, nous recherchons la présence d’hétérogénéité dans la réalisation des évaluations de l’impact de l’intervention en développement des compétences offerte dans le cadre des Ententes sur le développement du marché du travail. Nous utilisons des données administratives longitudinales couplées couvrant un échantillon de personnes ayant participé au développement des compétences de 2010 à 2017. Nous appliquons un estimateur causal d’apprentissage automatique comme dans Lechner (2019) pour estimer les impacts individualisés du programme au niveau d’agrégation à la granularité la plus fine. Ces impacts granulaires révèlent la répartition des impacts nets, ce qui permet de plus facilement étudier les éléments pour déterminer les plus efficaces pour chaque personne. Les résultats montrent des améliorations statistiquement significatives des résultats sur le marché du travail pour les participants en général et pour les sous-groupes d’intérêt stratégique.
    Date de diffusion : 2024-06-28

  • Articles et rapports : 11-522-X202200100008
    Description : La publication de davantage de données présentant un niveau élevé de désagrégation peut accroître la transparence et fournir des renseignements importants sur les groupes sous-représentés. L’élaboration d’options d’accès plus facilement disponibles augmente la quantité d’information disponible et produite par les chercheurs. Accroître l’étendue et la profondeur de l’information diffusée permet une meilleure représentation de la population canadienne, mais impose également à Statistique Canada une plus grande responsabilité quant à la manière dont cela est fait, qui se doit de préserver la confidentialité; il est donc utile d’élaborer des outils qui nous permettent de quantifier le risque lié à la granularité accrue des données. Afin d’évaluer le risque d’une attaque par reconstruction de base de données sur les données de recensement publiées par Statistique Canada, nous appliquons la stratégie de l’U.S. Census Bureau, qui met en avant une méthode utilisant un solveur de satisfaisabilité booléenne (SAT) pour reconstruire les attributs individuels des résidents d’un îlot hypothétique du recensement américain, basé uniquement sur un tableau de statistiques récapitulatives. Nous prévoyons d’étendre cette technique pour tenter de reconstruire une petite fraction des microdonnées de recensement de Statistique Canada. Dans cet article, nous aborderons nos conclusions, les défis liés à l’élaboration d’une attaque par reconstruction et l’effet d’une mesure de confidentialité existante pour atténuer ces attaques. En outre, nous comparerons notre stratégie actuelle à d’autres méthodes potentielles utilisées aux fins de protection des données, en particulier la publication de données tabulaires perturbées par un mécanisme aléatoire, tel que la confidentialité différentielle.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 11-522-X202200100013
    Description : Les répondants des enquêtes auprès des ménages usuelles tendent à fortement sous-déclarer leur éventuel recours à l'aide alimentaire distribuée par les associations. Cette sous-déclaration est très vraisemblablement liée au stigmate social ressenti par les personnes dans une situation de très grandes difficultés financières. Les estimations du nombre de bénéficiaires de cette aide issues des enquêtes sont ainsi très inférieures aux décomptes directs des associations. Ces décomptes, eux, tendent à la surestimation en raison de doubles comptes. L'enquête Aide alimentaire (EAA) collectée fin 2021 en France dans un échantillon de sites d'associations distribuant de l'aide alimentaire permet, par son protocole adapté, de contrôler les biais qui affectent les autres sources et de clarifier l'ampleur du recours à cette aide.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 12-001-X202300200017
    Description : Jean-Claude Deville, décédé en octobre 2021, fut l’un des chercheurs les plus influents dans le domaine la statistique d’enquête au cours des quarante dernières années. Cet article retrace certaines de ses contributions qui ont eu un profond impact, tant sur la théorie que sur la pratique des enquêtes. Cet article abordera les sujets suivants : l’échantillonnage équilibré au moyen de la méthode du cube, le calage, la méthode du partage des poids, le développement des expressions de la variance d’estimateurs complexes au moyen de la fonction d’influence et l’échantillonnage par quotas.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202200200009
    Description :

    L’imputation multiple est une approche populaire pour traiter les données manquantes découlant de la non-réponse dans les enquêtes-échantillons. L’imputation multiple au moyen d’équations en séries (MICE) est l’un des algorithmes d’imputation multiple les plus utilisés pour les données multivariées, mais son fondement théorique est insuffisant et elle exige beaucoup de calculs. Récemment, des méthodes d’imputation des données manquantes fondées sur des modèles d’apprentissage profond ont été élaborées, ce qui a donné des résultats encourageants dans de petites études. Cependant, peu de recherches ont été menées sur l’évaluation de leur rendement dans des contextes réalistes par rapport à la MICE, en particulier dans le cadre de grandes enquêtes. Nous menons de vastes études de simulation fondées sur un sous-échantillon de l’American Community Survey afin de comparer les propriétés d’échantillonnage répété de quatre méthodes d’apprentissage automatique fondées sur l’imputation multiple : MICE avec arbres de classification; MICE avec forêts aléatoires; réseaux antagonistes génératifs pour l’imputation; et imputation multiple à l’aide d’autoencodeurs débruiteurs. Nous constatons que les méthodes d’imputation fondées sur des modèles d’apprentissage profond sont plus efficaces que la MICE en ce qui a trait au temps de calcul. Cependant, étant donné le choix par défaut des hyperparamètres dans les progiciels communs, la MICE avec arbres de classification dépasse constamment, souvent de loin, les méthodes d’imputation fondées sur l’apprentissage profond quant au biais, à l’erreur quadratique moyenne et à la couverture dans une gamme de paramètres réalistes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 11-522-X202100100016
    Description : Le National Center for Health Statistics a reçu un financement pour deux projets visant à accroître la capacité en données et à rendre compte de la crise de santé publique des opioïdes aux États-Unis. Ceux-ci consistent à mettre au point des algorithmes qui font appel à toutes les données disponibles, structurées ou non, de la National Hospital Care Survey (NHCS) de 2016 pour mieux connaître la dépendance aux opioïdes et la présence de troubles concomitants (coexistence de troubles liés à l’utilisation de substances et de problèmes de santé mentale). Nous décrivons la démarche d’élaboration de ces algorithmes et les leçons tirées de l’intégration de méthodes de science des données comme le traitement du langage naturel dans la production des statistiques officielles. Il sera également question des mesures visant à rendre accessibles aux chercheurs les algorithmes et les fichiers de données analytiques.

    Mots clés : opioïdes; troubles concomitants; science des données; traitement du langage naturel; soins hospitaliers

    Date de diffusion : 2021-10-22

  • Articles et rapports : 18-001-X2020001
    Description :

    Le présent article décrit la méthodologie qui a utilisée pour générer la première mouture de cette base de données, qui contient les résultats obtenus à partir d'un premier ensemble de dix mesures. Les méthodes de calcul sont présentées sous forme de modèle généralisable, car il est maintenant possible d'appliquer des méthodes similaires à une multitude d'autres services et commodités, avec diverses autres spécifications.

    Date de diffusion : 2021-02-15

  • Articles et rapports : 11-633-X2021001
    Description :

    À l’aide des données de l’Enquête canadienne sur le logement (ECL), le présent projet visait à établir une mesure de l’inclusion sociale, laquelle repose sur des indicateurs déterminés par la Société canadienne d’hypothèques et de logement (SCHL), afin de faire état de la cote d’inclusion sociale de chaque strate géographique séparément pour les logements qui sont ou non des logements sociaux et abordables. Ce projet visait en outre à examiner les associations entre l’inclusion sociale et un ensemble de variables économiques, sociales et sanitaires.

    Date de diffusion : 2021-01-05

  • Articles et rapports : 12-001-X201900300006
    Description :

    Un taux de non-réponse élevé est un problème très courant dans les enquêtes-échantillons de nos jours. Du point de vue statistique, nous entretenons des inquiétudes au sujet du biais et de la variance accrus des estimateurs de chiffres de population comme les totaux ou les moyennes. Diverses méthodes ont été proposées pour compenser ce phénomène. En gros, nous pouvons les diviser en imputation et calage, et c’est sur la dernière méthode que nous nous concentrons ici. La catégorie des estimateurs par calage offre un large éventail de possibilités. Nous examinons le calage linéaire, pour lequel nous suggérons d’utiliser une version de non-réponse de l’estimateur de régression optimal fondé sur le plan. Nous faisons des comparaisons entre cet estimateur et un estimateur de type GREG. Les mesures de la distance jouent un rôle très important dans l’élaboration des estimateurs par calage. Nous démontrons qu’un estimateur de la propension moyenne à répondre (probabilité) peut être inclus dans la mesure de la distance « optimale » dans les cas de non-réponse, ce qui aide à réduire le biais de l’estimateur ainsi obtenu. Une étude en simulation a été réalisée pour illustrer de manière empirique les résultats obtenus de façon théorique pour les estimateurs proposés. La population se nomme KYBOK et se compose de municipalités administratives de la Suède, pour lesquelles les variables comprennent des mesures financières et de la taille. Les résultats sont encourageants pour l’estimateur « optimal » combiné à la propension estimative moyenne à répondre, où le biais a été réduit pour la plupart des cas d’échantillonnage de Poisson faisant partie de l’étude.

    Date de diffusion : 2019-12-17

  • Articles et rapports : 12-001-X201900200005
    Description :

    Nous exposons une méthode d’imputation de valeurs manquantes dans des données catégoriques multivariées emboîtées au sein des ménages. Cette méthode reposant sur un modèle à classes latentes (i) permet des variables au double niveau des ménages et des particuliers, (ii) attribue dans ce modèle une probabilité nulle aux configurations impossibles des ménages et (iii) peut préserver les distributions multivariées à la fois dans et entre les ménages. Nous présentons un échantillonneur de Gibbs pour l’estimation du modèle et la production des imputations. Nous décrivons en outre des stratégies d’amélioration de l’efficacité de calcul pour l’estimation du modèle. Nous illustrons enfin le rendement de la méthode à l’aide de données imitant les variables recueillies dans des recensements types de la population.

    Date de diffusion : 2019-06-27
Revues et périodiques (1)

Revues et périodiques (1) ((1 résultat))

  • Revues et périodiques : 84F0013X
    Géographie : Canada, Province ou territoire
    Description :

    La présente étude, entreprise pour confirmer la validité des méthodes de couplage probabiliste utilisées à Statistique Canada, a permis de comparer les résultats des couplages de données sur les naissances et sur la mortalité infantile au Canada avec celles sur la mortalité infantile des bases de données de la Nouvelle-Écosse et de l'Alberta. On a aussi comparé l'existence de données sur la mortalité foetale dans les fichiers national et provinciaux.

    Date de diffusion : 1999-10-08
Date de modification :