Recherche par mot-clé

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Type

1 facets displayed. 0 facets selected.

Année de publication

2 facets displayed. 0 facets selected.

Enquête ou programme statistique

1 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (14)

Tout (14) (0 à 10 de 14 résultats)

  • Articles et rapports : 12-001-X202400200015
    Description : Les modèles de forêt aléatoire, qui sont obtenus en calculant la moyenne des valeurs estimées d’un grand nombre de modèles arborescents, représentent un outil utile et souple pour modéliser les données de manière non paramétrique afin de fournir des valeurs hautement prédictives. Il existe un grand nombre d’applications potentielles pour ces types de modèles lorsqu’on traite des données d’enquête. Toutefois, puisque les données d’enquête sont habituellement recueillies à l’aide d’un plan de sondage informatif, il est nécessaire que l’algorithme utilisé pour créer les modèles de forêt aléatoire tienne compte de ce plan pendant l’estimation du modèle. Les modèles arborescents utilisés dans la forêt sont généralement obtenus en estimant les modèles arborescents sur des échantillons bootstrap des données d’origine. Comme les modèles dépendent des données observées et que les données observées dans l’échantillon dépendent du plan de sondage informatif, la méthode d’estimation habituelle est susceptible de mener à un modèle de forêt aléatoire biaisé lorsque ce dernier est appliqué aux données d’enquête. Dans le présent article, nous fournissons un algorithme et un ensemble de conditions produisant des modèles de forêt aléatoire convergents dans le cadre d’un plan de sondage informatif et comparons cette méthode avec la méthode habituelle de modélisation de type forêt aléatoire. Nous démontrons que le fait de ne pas tenir compte du plan de sondage peut donner lieu à des estimations de modèle comportant un biais.
    Date de diffusion : 2024-12-20

  • Articles et rapports : 11-522-X202200100017
    Description : Dans le présent document, nous recherchons la présence d’hétérogénéité dans la réalisation des évaluations de l’impact de l’intervention en développement des compétences offerte dans le cadre des Ententes sur le développement du marché du travail. Nous utilisons des données administratives longitudinales couplées couvrant un échantillon de personnes ayant participé au développement des compétences de 2010 à 2017. Nous appliquons un estimateur causal d’apprentissage automatique comme dans Lechner (2019) pour estimer les impacts individualisés du programme au niveau d’agrégation à la granularité la plus fine. Ces impacts granulaires révèlent la répartition des impacts nets, ce qui permet de plus facilement étudier les éléments pour déterminer les plus efficaces pour chaque personne. Les résultats montrent des améliorations statistiquement significatives des résultats sur le marché du travail pour les participants en général et pour les sous-groupes d’intérêt stratégique.
    Date de diffusion : 2024-06-28

  • Articles et rapports : 11-621-M2024008
    Description : Le présent article explore les résultats de l'enquête liés à l'utilisation de l'IA pour produire des biens et fournir des services. De plus, le présent article traite des types particuliers d’IA utilisés, comme l'apprentissage automatique, les agents virtuels et la reconnaissance vocale, ainsi que l'impact de l'adoption de l'IA sur les tâches effectuées par les employés et sur les niveaux d'emploi. Il comprend un examen des données produites par l'Enquête canadienne sur la situation des entreprises.
    Date de diffusion : 2024-06-20

  • Articles et rapports : 11-522-X202100100010
    Description :

    Dans le cadre du traitement du recensement canadien de 2021, les réponses en toutes lettres aux 31 questions du recensement doivent être codées. Jusqu’en 2016, il s’agissait d’un processus en trois étapes, dont une deuxième étape de « codage interactif (humain) ». Cette étape de codage humain est à la fois longue et coûteuse, s’étalant sur de nombreux mois et nécessitant le recrutement et la formation d’un grand nombre d’employés temporaires. Dans cette optique, pour 2021, cette étape sera soit complétée ou entièrement remplacée par des modèles d’apprentissage automatique à l’aide de l’algorithme « fastText ». Dans cette présentation, nous discuterons de la mise en place de cet algorithme ainsi que des défis et des décisions prises en cours de route.

    Mots clés : traitement du langage naturel, apprentissage automatique, fastText, codage

    Date de diffusion : 2021-11-05

  • Articles et rapports : 11-522-X202100100011
    Description : Les façons dont l’IA peut influer sur le monde des statistiques officielles sont multiples et le bureau central de la statistique des Pays-Bas (CBS) explore activement la façon dont il peut utiliser l’IA afin de remplir sa fonction sociétale. L’article décrit plusieurs domaines de l’IA sur lesquels CBS travaille actuellement : à savoir l’utilisation de l’IA aux fins de sa production de statistiques et de sa recherche et développement en statistique, la mise au point d’un outil national de surveillance de l’IA, le soutien d’autres organismes gouvernementaux ayant de l’expertise sur les données équitables et les algorithmes équitables, le partage de données dans des conditions sûres et sécurisées, et la participation à des collaborations liées à l’IA.

    Mots-clés : intelligence artificielle; statistiques officielles; partage de données; algorithmes équitables; surveillance de l’IA; collaboration.

    Date de diffusion : 2021-11-05

  • Articles et rapports : 11-522-X202100100012
    Description : La modernisation des statistiques sur les prix par les organismes nationaux de statistique (ONS), comme Statistique Canada, met l’accent sur l’adoption d’autres sources de données qui comprennent presque la totalité de l’univers des produits vendus dans le pays, une échelle qui nécessite la classification des données par apprentissage automatique. Le processus d’évaluation des classificateurs permettant de sélectionner ceux qui conviennent à la production ainsi que de surveiller les classificateurs une fois qu’ils servent à la production doit être fondé sur des paramètres robustes pour que soit mesuré le taux de classification erronée. Étant donné que les mesures couramment utilisées, comme le score Fß, peuvent ne pas tenir compte des principaux aspects applicables aux statistiques de prix dans tous les cas, comme l’importance inégale des catégories, il faut examiner attentivement l’espace métrique pour choisir les méthodes appropriées d’évaluation des classificateurs. Le présent document de travail présente l’espace métrique applicable aux statistiques de prix et propose un cadre opérationnel d’évaluation et de surveillance des classificateurs, en portant un intérêt particulier aux besoins de l’Indice des prix à la consommation du Canada et en démontrant les paramètres étudiés au moyen d’un ensemble de données accessibles au public.

    Mots clés : indice des prix à la consommation; classification supervisée; mesures d’évaluation; taxonomie

    Date de diffusion : 2021-11-05

  • Articles et rapports : 11-522-X202100100013
    Description : L’Enquête sur la population active (EPA) de Statistique Canada joue un rôle fondamental dans le mandat de Statistique Canada. L’information sur le marché du travail fournie par l’EPA est l’une des mesures les plus actuelles et les plus importantes du rendement global de l’économie canadienne. Le codage de l'industrie du répondant selon le Système de classification des industries de l'Amérique du Nord (SCIAN), de la profession selon le Système de classification nationale des professions (CNP) et de la principale catégorie de travailleurs (PCDT) fait partie intégrante du traitement mensuel des données de l'EPA. Chaque mois, jusqu'à 20 000 enregistrements sont codés manuellement. En 2020, Statistique Canada a travaillé au développement de modèles d'apprentissage automatique utilisant fastText afin de coder les réponses au questionnaire de l'EPA selon les trois classifications mentionnées précédemment. Le présent article donnera un aperçu de la méthodologie développée et des résultats obtenus à partir d'une application potentielle de l'utilisation de fastText dans le processus de codage de l’EPA.

    Mots clés : apprentissage automatique; Enquête sur la population active; classification de texte; fastText.

    Date de diffusion : 2021-11-05

  • Articles et rapports : 11-522-X202100100018
    Description : Le Centre des statistiques finlandais a commencé à publier des prévisions immédiates de l’indicateur de tendance de la production ou TIO (pour Trend Indicator of Output), l’indicateur mensuel de l’activité économique réelle, afin de répondre aux besoins des utilisateurs pendant la pandémie de COVID-19. Cet indicateur a été d’abord publié en avril 2020, au tout début de la pandémie en Finlande, et a depuis été publié chaque mois jusqu’en juin 2021. Les prévisions immédiates de l’indicateur TIO sont élaborées à l’aide de données de sources ouverte relatives aux volumes de circulation de camions à environ 100 points de mesure automatiques dans la région de Helsinki/Uusimaa ainsi qu’à l’aide de l’indicateur du climat économique pour la Finlande. L’estimation est effectuée à l’aide d’une approche d’apprentissage automatique et la méthodologie se fonde sur le travail réalisé antérieurement par le Centre des statistiques finlandais et ETLA Economic Research.

    Mots clés : prévisions immédiates; estimations rapides; apprentissage automatique; statistiques expérimentales.

    Date de diffusion : 2021-10-29

  • Articles et rapports : 11-522-X202100100015
    Description : Les agences nationales de statistique telles que Statistique Canada se doivent de communiquer la qualité de l’information statistique aux utilisateurs. Les méthodes traditionnellement utilisées pour le faire sont fondées sur des mesures de l’erreur d’échantillonnage. Elles ne sont donc pas adaptées aux estimations produites à partir des données administratives pour lesquelles les sources d’erreur principales sont non dues à l’échantillonnage. Une approche plus adaptée à ce contexte pour rapporter la qualité des estimations présentées dans un tableau multidimensionnel est décrite dans cet article. Des indicateurs de qualité ont été dérivés pour diverses étapes de traitement post-acquisition, comme le couplage, le géocodage et l’imputation, par domaine d’estimation. Un algorithme de partitionnement a ensuite servi à regrouper les domaines présentant des niveaux de qualité similaires pour une estimation donnée. Des cotes visant à informer les utilisateurs sur la qualité relative des estimations d’un domaine à l’autre ont été attribuées aux groupes ainsi formés. Cet indicateur, nommé l’indicateur composite de la qualité (ICQ), a été développé et appliqué de façon expérimentale dans le cadre du Programme de la statistique du logement canadien (PSLC) qui a comme objectif la production de statistiques officielles sur le secteur du logement résidentiel au Canada par l’intégration de multiples sources de données administratives.

    Mots Clés : Apprentissage automatique non supervisé, assurance de la qualité, données administratives, intégration des données, partitionnement.

    Date de diffusion : 2021-10-22

  • Articles et rapports : 11-522-X202100100002
    Description :

    Un cadre pour l’utilisation des processus d’apprentissage automatique de façon responsable a été élaboré à Statistique Canada. Le cadre comprend des lignes directrices pour l’usage responsable de l’apprentissage automatique et une liste de contrôle connexe, qui sont organisées en quatre thèmes : le respect des personnes; le respect des données; des méthodes éprouvées; une application rigoureuse. Les quatre thèmes mis en commun assurent l'utilisation éthique des algorithmes et des résultats de l’apprentissage automatique. Le cadre est ancré dans une vision qui cherche à créer un milieu de travail moderne et à fournir une orientation et un soutien à ceux qui utilisent les techniques d’apprentissage automatique. Il s’applique à tous les programmes et projets statistiques menés par Statistique Canada qui utilisent des algorithmes d’apprentissage automatique. Cela comprend les algorithmes d’apprentissage supervisés et non supervisés. Le cadre et les lignes directrices le supportant seront présentés dans un premier temps. Le processus de revue des projets utilisant l’apprentissage automatique, soit la façon dont le cadre est appliqué aux projets de Statistique Canada, sera ensuite expliqué. Finalement, des travaux futurs pour améliorer le cadre seront décrits.

    Mots Clés : Apprentissage automatique responsable, explicabilité, éthique

    Date de diffusion : 2021-10-15
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (14)

Analyses (14) (0 à 10 de 14 résultats)

  • Articles et rapports : 12-001-X202400200015
    Description : Les modèles de forêt aléatoire, qui sont obtenus en calculant la moyenne des valeurs estimées d’un grand nombre de modèles arborescents, représentent un outil utile et souple pour modéliser les données de manière non paramétrique afin de fournir des valeurs hautement prédictives. Il existe un grand nombre d’applications potentielles pour ces types de modèles lorsqu’on traite des données d’enquête. Toutefois, puisque les données d’enquête sont habituellement recueillies à l’aide d’un plan de sondage informatif, il est nécessaire que l’algorithme utilisé pour créer les modèles de forêt aléatoire tienne compte de ce plan pendant l’estimation du modèle. Les modèles arborescents utilisés dans la forêt sont généralement obtenus en estimant les modèles arborescents sur des échantillons bootstrap des données d’origine. Comme les modèles dépendent des données observées et que les données observées dans l’échantillon dépendent du plan de sondage informatif, la méthode d’estimation habituelle est susceptible de mener à un modèle de forêt aléatoire biaisé lorsque ce dernier est appliqué aux données d’enquête. Dans le présent article, nous fournissons un algorithme et un ensemble de conditions produisant des modèles de forêt aléatoire convergents dans le cadre d’un plan de sondage informatif et comparons cette méthode avec la méthode habituelle de modélisation de type forêt aléatoire. Nous démontrons que le fait de ne pas tenir compte du plan de sondage peut donner lieu à des estimations de modèle comportant un biais.
    Date de diffusion : 2024-12-20

  • Articles et rapports : 11-522-X202200100017
    Description : Dans le présent document, nous recherchons la présence d’hétérogénéité dans la réalisation des évaluations de l’impact de l’intervention en développement des compétences offerte dans le cadre des Ententes sur le développement du marché du travail. Nous utilisons des données administratives longitudinales couplées couvrant un échantillon de personnes ayant participé au développement des compétences de 2010 à 2017. Nous appliquons un estimateur causal d’apprentissage automatique comme dans Lechner (2019) pour estimer les impacts individualisés du programme au niveau d’agrégation à la granularité la plus fine. Ces impacts granulaires révèlent la répartition des impacts nets, ce qui permet de plus facilement étudier les éléments pour déterminer les plus efficaces pour chaque personne. Les résultats montrent des améliorations statistiquement significatives des résultats sur le marché du travail pour les participants en général et pour les sous-groupes d’intérêt stratégique.
    Date de diffusion : 2024-06-28

  • Articles et rapports : 11-621-M2024008
    Description : Le présent article explore les résultats de l'enquête liés à l'utilisation de l'IA pour produire des biens et fournir des services. De plus, le présent article traite des types particuliers d’IA utilisés, comme l'apprentissage automatique, les agents virtuels et la reconnaissance vocale, ainsi que l'impact de l'adoption de l'IA sur les tâches effectuées par les employés et sur les niveaux d'emploi. Il comprend un examen des données produites par l'Enquête canadienne sur la situation des entreprises.
    Date de diffusion : 2024-06-20

  • Articles et rapports : 11-522-X202100100010
    Description :

    Dans le cadre du traitement du recensement canadien de 2021, les réponses en toutes lettres aux 31 questions du recensement doivent être codées. Jusqu’en 2016, il s’agissait d’un processus en trois étapes, dont une deuxième étape de « codage interactif (humain) ». Cette étape de codage humain est à la fois longue et coûteuse, s’étalant sur de nombreux mois et nécessitant le recrutement et la formation d’un grand nombre d’employés temporaires. Dans cette optique, pour 2021, cette étape sera soit complétée ou entièrement remplacée par des modèles d’apprentissage automatique à l’aide de l’algorithme « fastText ». Dans cette présentation, nous discuterons de la mise en place de cet algorithme ainsi que des défis et des décisions prises en cours de route.

    Mots clés : traitement du langage naturel, apprentissage automatique, fastText, codage

    Date de diffusion : 2021-11-05

  • Articles et rapports : 11-522-X202100100011
    Description : Les façons dont l’IA peut influer sur le monde des statistiques officielles sont multiples et le bureau central de la statistique des Pays-Bas (CBS) explore activement la façon dont il peut utiliser l’IA afin de remplir sa fonction sociétale. L’article décrit plusieurs domaines de l’IA sur lesquels CBS travaille actuellement : à savoir l’utilisation de l’IA aux fins de sa production de statistiques et de sa recherche et développement en statistique, la mise au point d’un outil national de surveillance de l’IA, le soutien d’autres organismes gouvernementaux ayant de l’expertise sur les données équitables et les algorithmes équitables, le partage de données dans des conditions sûres et sécurisées, et la participation à des collaborations liées à l’IA.

    Mots-clés : intelligence artificielle; statistiques officielles; partage de données; algorithmes équitables; surveillance de l’IA; collaboration.

    Date de diffusion : 2021-11-05

  • Articles et rapports : 11-522-X202100100012
    Description : La modernisation des statistiques sur les prix par les organismes nationaux de statistique (ONS), comme Statistique Canada, met l’accent sur l’adoption d’autres sources de données qui comprennent presque la totalité de l’univers des produits vendus dans le pays, une échelle qui nécessite la classification des données par apprentissage automatique. Le processus d’évaluation des classificateurs permettant de sélectionner ceux qui conviennent à la production ainsi que de surveiller les classificateurs une fois qu’ils servent à la production doit être fondé sur des paramètres robustes pour que soit mesuré le taux de classification erronée. Étant donné que les mesures couramment utilisées, comme le score Fß, peuvent ne pas tenir compte des principaux aspects applicables aux statistiques de prix dans tous les cas, comme l’importance inégale des catégories, il faut examiner attentivement l’espace métrique pour choisir les méthodes appropriées d’évaluation des classificateurs. Le présent document de travail présente l’espace métrique applicable aux statistiques de prix et propose un cadre opérationnel d’évaluation et de surveillance des classificateurs, en portant un intérêt particulier aux besoins de l’Indice des prix à la consommation du Canada et en démontrant les paramètres étudiés au moyen d’un ensemble de données accessibles au public.

    Mots clés : indice des prix à la consommation; classification supervisée; mesures d’évaluation; taxonomie

    Date de diffusion : 2021-11-05

  • Articles et rapports : 11-522-X202100100013
    Description : L’Enquête sur la population active (EPA) de Statistique Canada joue un rôle fondamental dans le mandat de Statistique Canada. L’information sur le marché du travail fournie par l’EPA est l’une des mesures les plus actuelles et les plus importantes du rendement global de l’économie canadienne. Le codage de l'industrie du répondant selon le Système de classification des industries de l'Amérique du Nord (SCIAN), de la profession selon le Système de classification nationale des professions (CNP) et de la principale catégorie de travailleurs (PCDT) fait partie intégrante du traitement mensuel des données de l'EPA. Chaque mois, jusqu'à 20 000 enregistrements sont codés manuellement. En 2020, Statistique Canada a travaillé au développement de modèles d'apprentissage automatique utilisant fastText afin de coder les réponses au questionnaire de l'EPA selon les trois classifications mentionnées précédemment. Le présent article donnera un aperçu de la méthodologie développée et des résultats obtenus à partir d'une application potentielle de l'utilisation de fastText dans le processus de codage de l’EPA.

    Mots clés : apprentissage automatique; Enquête sur la population active; classification de texte; fastText.

    Date de diffusion : 2021-11-05

  • Articles et rapports : 11-522-X202100100018
    Description : Le Centre des statistiques finlandais a commencé à publier des prévisions immédiates de l’indicateur de tendance de la production ou TIO (pour Trend Indicator of Output), l’indicateur mensuel de l’activité économique réelle, afin de répondre aux besoins des utilisateurs pendant la pandémie de COVID-19. Cet indicateur a été d’abord publié en avril 2020, au tout début de la pandémie en Finlande, et a depuis été publié chaque mois jusqu’en juin 2021. Les prévisions immédiates de l’indicateur TIO sont élaborées à l’aide de données de sources ouverte relatives aux volumes de circulation de camions à environ 100 points de mesure automatiques dans la région de Helsinki/Uusimaa ainsi qu’à l’aide de l’indicateur du climat économique pour la Finlande. L’estimation est effectuée à l’aide d’une approche d’apprentissage automatique et la méthodologie se fonde sur le travail réalisé antérieurement par le Centre des statistiques finlandais et ETLA Economic Research.

    Mots clés : prévisions immédiates; estimations rapides; apprentissage automatique; statistiques expérimentales.

    Date de diffusion : 2021-10-29

  • Articles et rapports : 11-522-X202100100015
    Description : Les agences nationales de statistique telles que Statistique Canada se doivent de communiquer la qualité de l’information statistique aux utilisateurs. Les méthodes traditionnellement utilisées pour le faire sont fondées sur des mesures de l’erreur d’échantillonnage. Elles ne sont donc pas adaptées aux estimations produites à partir des données administratives pour lesquelles les sources d’erreur principales sont non dues à l’échantillonnage. Une approche plus adaptée à ce contexte pour rapporter la qualité des estimations présentées dans un tableau multidimensionnel est décrite dans cet article. Des indicateurs de qualité ont été dérivés pour diverses étapes de traitement post-acquisition, comme le couplage, le géocodage et l’imputation, par domaine d’estimation. Un algorithme de partitionnement a ensuite servi à regrouper les domaines présentant des niveaux de qualité similaires pour une estimation donnée. Des cotes visant à informer les utilisateurs sur la qualité relative des estimations d’un domaine à l’autre ont été attribuées aux groupes ainsi formés. Cet indicateur, nommé l’indicateur composite de la qualité (ICQ), a été développé et appliqué de façon expérimentale dans le cadre du Programme de la statistique du logement canadien (PSLC) qui a comme objectif la production de statistiques officielles sur le secteur du logement résidentiel au Canada par l’intégration de multiples sources de données administratives.

    Mots Clés : Apprentissage automatique non supervisé, assurance de la qualité, données administratives, intégration des données, partitionnement.

    Date de diffusion : 2021-10-22

  • Articles et rapports : 11-522-X202100100002
    Description :

    Un cadre pour l’utilisation des processus d’apprentissage automatique de façon responsable a été élaboré à Statistique Canada. Le cadre comprend des lignes directrices pour l’usage responsable de l’apprentissage automatique et une liste de contrôle connexe, qui sont organisées en quatre thèmes : le respect des personnes; le respect des données; des méthodes éprouvées; une application rigoureuse. Les quatre thèmes mis en commun assurent l'utilisation éthique des algorithmes et des résultats de l’apprentissage automatique. Le cadre est ancré dans une vision qui cherche à créer un milieu de travail moderne et à fournir une orientation et un soutien à ceux qui utilisent les techniques d’apprentissage automatique. Il s’applique à tous les programmes et projets statistiques menés par Statistique Canada qui utilisent des algorithmes d’apprentissage automatique. Cela comprend les algorithmes d’apprentissage supervisés et non supervisés. Le cadre et les lignes directrices le supportant seront présentés dans un premier temps. Le processus de revue des projets utilisant l’apprentissage automatique, soit la façon dont le cadre est appliqué aux projets de Statistique Canada, sera ensuite expliqué. Finalement, des travaux futurs pour améliorer le cadre seront décrits.

    Mots Clés : Apprentissage automatique responsable, explicabilité, éthique

    Date de diffusion : 2021-10-15
Références (0)

Références (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :