Autre contenu lié aux Méthodes statistiques

Aide à l'ordre
entrées

Résultats

Tout (79)

Tout (79) (0 à 10 de 79 résultats)

  • Articles et rapports : 11-522-X202200100002
    Description : Les auteures ont utilisé le progiciel de couplage probabiliste Splink mis au point par le ministère de la Justice du Royaume-Uni pour relier les données du recensement de l’Angleterre et du pays de Galles à elles-mêmes afin de trouver des réponses en double au recensement. Un grand ensemble étalon-or des doublons confirmés du recensement était disponible, ce qui signifiait que la qualité des résultats de la mise en œuvre de Splink pouvait être assurée. Le présent article décrit la mise en œuvre et les fonctionnalités de Splink, donne des détails sur les configurations et les paramètres que nous avons utilisés pour ajuster Splink à notre projet en particulier, et donne les résultats que nous avons obtenus.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 11-522-X202200100017
    Description : Dans le présent document, nous recherchons la présence d’hétérogénéité dans la réalisation des évaluations de l’impact de l’intervention en développement des compétences offerte dans le cadre des Ententes sur le développement du marché du travail. Nous utilisons des données administratives longitudinales couplées couvrant un échantillon de personnes ayant participé au développement des compétences de 2010 à 2017. Nous appliquons un estimateur causal d’apprentissage automatique comme dans Lechner (2019) pour estimer les impacts individualisés du programme au niveau d’agrégation à la granularité la plus fine. Ces impacts granulaires révèlent la répartition des impacts nets, ce qui permet de plus facilement étudier les éléments pour déterminer les plus efficaces pour chaque personne. Les résultats montrent des améliorations statistiquement significatives des résultats sur le marché du travail pour les participants en général et pour les sous-groupes d’intérêt stratégique.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 11-522-X202200100020
    Description : La réconciliation des logements du recensement de 2021 avec le nouveau Registre statistique des immeubles (RSIm) a présenté des défis de couplage. Le Recensement de la population a recueilli des renseignements sur divers types de logements. Pour une grande partie de la population, les adresses postales, utilisées pour communiquer avec les gens et recueillies comme coordonnées, jouaient un rôle central. Parallèlement, l’environnement des registres a évolué. L’agence passe du Registre des adresses (RA) au Registre statistique des immeubles (RSIm), contenant les adresses postales et les adresses municipales, tout en couvrant les immeubles non résidentiels. La réconciliation a été effectuée à l’aide d’une combinaison de systèmes, notamment le nouveau Moteur d’appariement aux registres (MAR) pour les cas difficiles. Le MAR contient différents comparateurs de chaînes sophistiqués pertinents. Une méthode de couplage déterministe, tout en incorporant certaines connaissances sur les données comme l’entropie, fut employée. Grâce aux métadonnées, les experts en appariement ont aussi pu réduire le nombre de faux positifs et le nombre de faux négatifs.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 82-003-X202301200002
    Description : La validité des estimations de la survie fondées sur les données des registres du cancer découle en partie du repérage des décès de personnes atteintes de cancer. Les personnes dont le décès n’est pas repéré semblent vivre éternellement et sont informellement appelées « immortelles ». Leur présence dans les données des registres peut entraîner des estimations de survie exagérées. L’étude évalue l’enjeu des immortels dans le Registre canadien du cancer au moyen d’une méthode proposée qui permet de comparer la survie des survivants à long terme du cancer pour lesquels un remède « statistique » a été déclaré avec celle d’autres personnes similaires issues de la population générale.
    Date de diffusion : 2023-12-20

  • Articles et rapports : 75F0002M2022003
    Description : Ce document de travail décrit la méthodologie proposée pour une mesure du panier de consommation nordique (MPC-N) pour le Nunavut, et identifie certaines recherches qui pourraient être menées en préparation de l'examen de 2023. Le document présente les seuils initiaux de la MPC-N et fournit des estimations préliminaires de la pauvreté pour les années de référence 2018 à 2021. Une période d'examen suivra la publication de ce document, au cours de laquelle Statistique Canada et Emploi et Développement social Canada accueilleront les commentaires des parties intéressées et travailleront avec des experts, des intervenants, des organisations autochtones et des fonctionnaires fédéraux, provinciaux et territoriaux pour valider les résultats.
    Date de diffusion : 2023-06-21

  • Articles et rapports : 75F0002M2022004
    Description :

    Ce document technique décrit les résultats de la période d'examen, y compris les petits ajustements apportés aux montants du revenu disponible utilisés dans le document Développement d'une mesure de la pauvreté fondée sur un panier de consommation nordique (MPC-N) pour le Yukon et les Territoires du Nord-Ouest. Il marque également la fin de la période d'examen de la MPC-N pour le Yukon et les Territoires du Nord-Ouest en présentant les dernières estimations de la pauvreté pour l'année de référence 2020.

    Date de diffusion : 2022-11-03

  • Articles et rapports : 11-633-X2022002
    Description :

    Le présent document décrit le cadre conceptuel du système modernisé de statistiques nationales sur la qualité de vie que Statistique Canada prévoit mettre en œuvre au cours des cinq à dix prochaines années. Conformément à 50 ans de dialogue sur l'amélioration des statistiques sociales, le cadre conceptuel propose l'adoption d'une approche au niveau micro pour décrire le fonctionnement de la société et aider à créer un système cohérent et intégré de statistiques sur la qualité de vie.

    Date de diffusion : 2022-06-01

  • Articles et rapports : 11-633-X2021006
    Description :

    Le présent document décrit la réflexion actuelle à Statistique Canada concernant les orientations futures en ce qui a trait aux statistiques sociales. Il décrit à quoi ressemblera le système de statistiques sociales (qu’on renommerait statistiques sur la qualité de vie) au cours des 5 à 10 prochaines années si Statistique Canada adopte les méthodologies et les produits de diffusion transformateurs qui sont nécessaires pour répondre à la demande croissante de statistiques sur la qualité de vie qui soient plus désagrégées, plus actuelles, plus granulaires, plus accessibles et plus réactives.

    Date de diffusion : 2022-01-31

  • Articles et rapports : 11-633-X2021007
    Description :

    Statistique Canada continue d’utiliser diverses sources de données pour fournir des variables au niveau des quartiers dans un ensemble croissant de domaines, comme les caractéristiques sociodémographiques, le revenu, les services et les commodités, la criminalité et l’environnement. Pourtant, malgré ces progrès, les renseignements sur les aspects sociaux des quartiers ne sont toujours pas disponibles. Dans le présent article, les réponses à l’Enquête sur la santé dans les collectivités canadiennes concernant le sentiment d’appartenance des répondants à leur communauté locale ont été regroupées pour les quatre années d’enquête allant de 2016 à 2019. Les réponses individuelles ont été agrégées au niveau du secteur de recensement (SR).

    Date de diffusion : 2021-11-16

  • Articles et rapports : 75F0002M2021007
    Description :

    Ce document de travail décrit la méthodologie proposée pour une mesure du panier de consommation nordique (MPC-N) pour le Yukon et les Territoires du Nord-Ouest, et identifie certaines recherches qui pourraient être menées en préparation de l'examen de 2023. Le document présente les seuils initiaux de la MPC-N et fournit des estimations préliminaires de la pauvreté pour les années de référence 2018 et 2019. Une période d'examen suivra la publication de ce document, au cours de laquelle Statistique Canada et Emploi et Développement social Canada accueilleront les commentaires des parties intéressées et travailleront avec des experts, des intervenants, des organisations autochtones et des fonctionnaires fédéraux, provinciaux et territoriaux pour valider les résultats.

    Date de diffusion : 2021-11-12
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (79)

Analyses (79) (10 à 20 de 79 résultats)

  • Articles et rapports : 11-522-X202100100010
    Description :

    Dans le cadre du traitement du recensement canadien de 2021, les réponses en toutes lettres aux 31 questions du recensement doivent être codées. Jusqu’en 2016, il s’agissait d’un processus en trois étapes, dont une deuxième étape de « codage interactif (humain) ». Cette étape de codage humain est à la fois longue et coûteuse, s’étalant sur de nombreux mois et nécessitant le recrutement et la formation d’un grand nombre d’employés temporaires. Dans cette optique, pour 2021, cette étape sera soit complétée ou entièrement remplacée par des modèles d’apprentissage automatique à l’aide de l’algorithme « fastText ». Dans cette présentation, nous discuterons de la mise en place de cet algorithme ainsi que des défis et des décisions prises en cours de route.

    Mots clés : traitement du langage naturel, apprentissage automatique, fastText, codage

    Date de diffusion : 2021-11-05

  • Articles et rapports : 11-522-X202100100011
    Description : Les façons dont l’IA peut influer sur le monde des statistiques officielles sont multiples et le bureau central de la statistique des Pays-Bas (CBS) explore activement la façon dont il peut utiliser l’IA afin de remplir sa fonction sociétale. L’article décrit plusieurs domaines de l’IA sur lesquels CBS travaille actuellement : à savoir l’utilisation de l’IA aux fins de sa production de statistiques et de sa recherche et développement en statistique, la mise au point d’un outil national de surveillance de l’IA, le soutien d’autres organismes gouvernementaux ayant de l’expertise sur les données équitables et les algorithmes équitables, le partage de données dans des conditions sûres et sécurisées, et la participation à des collaborations liées à l’IA.

    Mots-clés : intelligence artificielle; statistiques officielles; partage de données; algorithmes équitables; surveillance de l’IA; collaboration.

    Date de diffusion : 2021-11-05

  • Articles et rapports : 11-522-X202100100012
    Description : La modernisation des statistiques sur les prix par les organismes nationaux de statistique (ONS), comme Statistique Canada, met l’accent sur l’adoption d’autres sources de données qui comprennent presque la totalité de l’univers des produits vendus dans le pays, une échelle qui nécessite la classification des données par apprentissage automatique. Le processus d’évaluation des classificateurs permettant de sélectionner ceux qui conviennent à la production ainsi que de surveiller les classificateurs une fois qu’ils servent à la production doit être fondé sur des paramètres robustes pour que soit mesuré le taux de classification erronée. Étant donné que les mesures couramment utilisées, comme le score Fß, peuvent ne pas tenir compte des principaux aspects applicables aux statistiques de prix dans tous les cas, comme l’importance inégale des catégories, il faut examiner attentivement l’espace métrique pour choisir les méthodes appropriées d’évaluation des classificateurs. Le présent document de travail présente l’espace métrique applicable aux statistiques de prix et propose un cadre opérationnel d’évaluation et de surveillance des classificateurs, en portant un intérêt particulier aux besoins de l’Indice des prix à la consommation du Canada et en démontrant les paramètres étudiés au moyen d’un ensemble de données accessibles au public.

    Mots clés : indice des prix à la consommation; classification supervisée; mesures d’évaluation; taxonomie

    Date de diffusion : 2021-11-05

  • Articles et rapports : 11-522-X202100100013
    Description : L’Enquête sur la population active (EPA) de Statistique Canada joue un rôle fondamental dans le mandat de Statistique Canada. L’information sur le marché du travail fournie par l’EPA est l’une des mesures les plus actuelles et les plus importantes du rendement global de l’économie canadienne. Le codage de l'industrie du répondant selon le Système de classification des industries de l'Amérique du Nord (SCIAN), de la profession selon le Système de classification nationale des professions (CNP) et de la principale catégorie de travailleurs (PCDT) fait partie intégrante du traitement mensuel des données de l'EPA. Chaque mois, jusqu'à 20 000 enregistrements sont codés manuellement. En 2020, Statistique Canada a travaillé au développement de modèles d'apprentissage automatique utilisant fastText afin de coder les réponses au questionnaire de l'EPA selon les trois classifications mentionnées précédemment. Le présent article donnera un aperçu de la méthodologie développée et des résultats obtenus à partir d'une application potentielle de l'utilisation de fastText dans le processus de codage de l’EPA.

    Mots clés : apprentissage automatique; Enquête sur la population active; classification de texte; fastText.

    Date de diffusion : 2021-11-05

  • Articles et rapports : 11-522-X202100100028
    Description :

    De nombreux groupes du gouvernement du Canada développent des codes permettant de traiter et visualiser diverses sortes de données, déployant souvent les mêmes efforts, avec une efficacité sous-optimale et un niveau limité d’examen de la qualité du code. Le présent article présente de façon informelle une méthode de travail visant à traiter ce problème technique. L’idée est de collaborer à la conception d’un dépôt commun de codes et une base de connaissances utilisables par toute personne du secteur public pour accomplir de nombreuses tâches courantes en science des données et, ce faisant, de s’aider mutuellement à maîtriser à la fois les compétences de codage en science des données et les pratiques de collaboration normalisées de l’industrie. L’article explique pourquoi le langage R est utilisé comme langage de prédilection dans le développement de codes en science des données collaborative. Il résume les avantages de R, mais aussi ses limites, établit la taxonomie des sujets de discussion qui intéressent le plus les scientifiques des données du GC travaillant avec R, donne un aperçu des plateformes collaboratives utilisées, et présente les résultats obtenus à ce jour. Bien que la base de connaissances sur les codes soit élaborée principalement en R, elle se veut également utile pour les scientifiques des données qui codent en Python et d’autres environnements de développement. Mots-clés : collaboration; science des données; ingénierie des données; R; gouvernement ouvert; données ouvertes; science ouverte.

    Date de diffusion : 2021-10-29

  • Articles et rapports : 11-522-X202100100001
    Description :

    Nous envisageons ici l’analyse de régression dans le contexte de l’intégration de données. Pour combiner des renseignements partiels de sources externes, nous utilisons l’idée de calage de modèle qui introduit un modèle « de travail » réduit fondé sur les covariables observées. Ce modèle de travail réduit n’est pas nécessairement spécifié correctement, mais il peut être un outil utile pour intégrer les renseignements partiels provenant de données externes. La mise en œuvre en tant que telle se fonde sur une application nouvelle de la méthode de vraisemblance empirique. La méthode proposée est particulièrement attractive pour combiner des renseignements de plusieurs sources présentant différentes tendances d’information manquante. La méthode est appliquée à un exemple de données réelles combinant les données d’enquête de la Korean National Health and Nutrition Examination Survey (KNHANES, Enquête nationale coréenne sur la santé et la nutrition) et les mégadonnées du National Health Insurance Sharing Service (NHISS, Service national coréen de partage de l’assurance maladie).

    Mots clés : mégadonnées; probabilité empirique; modèles d’erreur de mesure; covariables manquantes.

    Date de diffusion : 2021-10-15

  • Articles et rapports : 11-522-X202100100002
    Description :

    Un cadre pour l’utilisation des processus d’apprentissage automatique de façon responsable a été élaboré à Statistique Canada. Le cadre comprend des lignes directrices pour l’usage responsable de l’apprentissage automatique et une liste de contrôle connexe, qui sont organisées en quatre thèmes : le respect des personnes; le respect des données; des méthodes éprouvées; une application rigoureuse. Les quatre thèmes mis en commun assurent l'utilisation éthique des algorithmes et des résultats de l’apprentissage automatique. Le cadre est ancré dans une vision qui cherche à créer un milieu de travail moderne et à fournir une orientation et un soutien à ceux qui utilisent les techniques d’apprentissage automatique. Il s’applique à tous les programmes et projets statistiques menés par Statistique Canada qui utilisent des algorithmes d’apprentissage automatique. Cela comprend les algorithmes d’apprentissage supervisés et non supervisés. Le cadre et les lignes directrices le supportant seront présentés dans un premier temps. Le processus de revue des projets utilisant l’apprentissage automatique, soit la façon dont le cadre est appliqué aux projets de Statistique Canada, sera ensuite expliqué. Finalement, des travaux futurs pour améliorer le cadre seront décrits.

    Mots Clés : Apprentissage automatique responsable, explicabilité, éthique

    Date de diffusion : 2021-10-15

  • Articles et rapports : 11-522-X202100100003
    Description :

    La taille et la richesse croissantes des données numériques permettent de modéliser des relations et des interactions plus complexes, ce qui est le point fort de l’apprentissage automatique. Dans notre étude, nous avons appliqué le boosting de gradient au système néerlandais d’ensembles de données statistiques sociales pour estimer les probabilités de transition vers la pauvreté et de sortie de la pauvreté. Les estimations individuelles sont raisonnables, mais la méthode combinée avec SHAP et des modèles de substitution globaux apporte des avantages, principalement : le classement simultané de centaines de caractéristiques selon leur importance, une vue détaillée de leur relation avec les probabilités de transition, et l’identification fondée sur les données de sous-populations ayant des probabilités de transition relativement élevées et faibles. En outre, nous décomposons la différence de l’importance des caractéristiques entre la population générale et les sous-populations entre un effet de fréquence et un effet de la caractéristique. Nous mettons en garde contre les possibilités de mauvaise interprétation et discutons des futurs travaux envisageables.

    Mots clés : classification; explicabilité; boosting de gradient; événement de la vie; facteurs de risque; décomposition SHAP.

    Date de diffusion : 2021-10-15

  • Articles et rapports : 11-522-X202100100019
    Description : Les organismes statistiques officiels doivent continuellement rechercher de nouvelles méthodes et techniques pouvant accroître l’efficacité des programmes et la pertinence des produits. La mesure de l’activité de construction qu’effectue l’U.S. Census Bureau (Bureau du recensement des États-Unis) est actuellement une entreprise qui exige beaucoup de ressources et qui repose lourdement sur la réponse aux enquêtes mensuelles au moyen de questionnaires et d’une collecte massive de données sur le terrain. Nos utilisateurs de données requièrent continuellement des produits de données plus actuels et plus détaillés, mais l’approche traditionnelle par enquête et le coût de collecte connexe, ainsi que le fardeau du répondant limitent notre capacité à répondre à ces besoins. En 2019, nous avons commencé des recherches pour savoir si l’application de techniques d’apprentissage automatique à l’imagerie satellitaire permettrait d’estimer de façon exacte les mises en chantier et les achèvements de logements, tout en respectant les échéances de l’indicateur mensuel existant, et ce, à un coût inférieur ou égal aux méthodes existantes. À l’aide des données historiques de l’enquête sur la construction du recensement en combinaison avec une imagerie satellitaire ciblée, l’équipe a entraîné, testé et validé deux réseaux neuronaux convolutifs capables de classer les images selon leur étape de construction, ce qui démontre la viabilité d’une approche fondée sur la science des données pour produire des mesures officielles de l’activité de construction.

    Mots clés : statistiques officielles; mises en chantier; apprentissage automatique; imagerie satellitaire.

    Date de diffusion : 2021-10-15

  • Articles et rapports : 18-001-X2020001
    Description :

    Le présent article décrit la méthodologie qui a utilisée pour générer la première mouture de cette base de données, qui contient les résultats obtenus à partir d'un premier ensemble de dix mesures. Les méthodes de calcul sont présentées sous forme de modèle généralisable, car il est maintenant possible d'appliquer des méthodes similaires à une multitude d'autres services et commodités, avec diverses autres spécifications.

    Date de diffusion : 2021-02-15
Références (0)

Références (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :