Recherche par mot-clé

Aide à l'ordre
entrées

Résultats

Tout (21)

Tout (21) (0 à 10 de 21 résultats)

  • Articles et rapports : 11-522-X202100100021
    Description : L’Institut national italien de statistique (Istat) a lancé un nouveau projet relatif aux processus statistiques à court terme, afin de respecter la future nouvelle réglementation européenne visant à diffuser des estimations plus rapidement. L’évaluation et l’analyse du processus d’enquête actuel de l’enquête à court terme sur le chiffre d’affaires dans les services (FAS) visent à relever la façon dont les meilleures caractéristiques des méthodes et pratiques actuelles peuvent être exploitées pour concevoir un processus plus « efficace ». Le projet devrait, en particulier, fournir des méthodes permettant d’appliquer en général d’importantes économies d’échelle, de portée et de connaissances au contexte de production des enquêtes à court terme, qui ont généralement recours à un nombre restreint de ressources. L’analyse du processus TEL QUEL a révélé que l’enquête FAS entraînait des coûts substantiels de vérification et d’imputation, en particulier du fait de l’importance du suivi et de la vérification interactive utilisés pour tous les types d’erreurs détectées. Dans cette optique, nous avons essayé d’exploiter les leçons retenues en participant au Groupe de haut niveau sur la modernisation des statistiques officielles (GHN-MSO, CEE-ONU) sur l’utilisation de l’apprentissage automatique dans les statistiques officielles. Dans cette étude, nous présentons une première expérience utilisant les modèles de forêt aléatoire pour : (i) prédire les unités représentant des données « douteuses », (ii) évaluer l’utilisation du potentiel de prédiction sur de nouvelles données et (iii) explorer des données afin de relever des règles et des tendances cachées. Nous nous concentrons en particulier sur le recours à la modélisation par forêt aléatoire pour comparer certaines autres méthodes en matière d’efficacité de la prédiction d’erreurs et pour traiter des aspects principaux de la nouvelle conception du schéma de vérification et d’imputation.
    Date de diffusion : 2021-10-15

  • 19-22-0004
    Description : L'un des principaux objectifs de la statistique consiste à présenter des données sous forme de renseignements faciles à résumer et à comprendre. L'utilisation d'outils de visualisation des données, comme les graphiques et les tableaux, est un moyen efficace d'atteindre cet objectif. Cette séance d'information vise à montrer des exemples de graphiques et de tableaux courants, à fournir des conseils pratiques pour aider les participants à choisir l'affichage approprié pour leurs données, et à déterminer ce qu'il faut éviter et pour quelle raison. De manière générale, l'objet est de renforcer la capacité statistique et d'améliorer la compréhension des techniques fondamentales qui favorisent la diffusion précise et efficace des statistiques et des résultats de recherche.

    https://www.statcan.gc.ca/fr/afc/information/19220004
    Date de diffusion : 2020-10-30

  • Articles et rapports : 12-001-X201600114538
    Description :

    La vérification automatique consiste en l’utilisation d’un ordinateur pour déceler et corriger sans intervention humaine les valeurs erronées dans un ensemble de données. La plupart des méthodes de vérification automatique actuellement employées aux fins de la statistique officielle sont fondées sur les travaux fondamentaux de Fellegi et Holt (1976). La mise en application de cette méthode dans la pratique révèle des différences systématiques entre les données vérifiées manuellement et celles qui sont vérifiées de façon automatisée, car l’humain est en mesure d’effectuer des opérations de vérification complexes. L’auteur du présent article propose une généralisation du paradigme de Fellegi-Holt qui permet d’intégrer de façon naturelle une grande catégorie d’opérations de vérification. Il présente aussi un algorithme qui résout le problème généralisé de localisation des erreurs qui en découle. Il est à espérer que cette généralisation puisse améliorer la pertinence des vérifications automatiques dans la pratique et ainsi accroître l’efficience des processus de vérification des données. Certains des premiers résultats obtenus à l’aide de données synthétiques sont prometteurs à cet égard.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201400214089
    Description :

    Le présent document décrit l’utilisation de l’imputation multiple pour combiner l’information de plusieurs enquêtes de la même population sous-jacente. Nous utilisons une nouvelle méthode pour générer des populations synthétiques de façon non paramétrique à partir d’un bootstrap bayésien fondé sur une population finie qui tient systématiquement compte des plans d’échantillonnage complexes. Nous analysons ensuite chaque population synthétique au moyen d’un logiciel standard de données complètes pour les échantillons aléatoires simples et obtenons une inférence valide en combinant les estimations ponctuelles et de variance au moyen des extensions de règles de combinaison existantes pour les données synthétiques. Nous illustrons l’approche en combinant les données de la National Health Interview Survey (NHIS) de 2006 et de la Medical Expenditure Panel Survey (MEPS) de 2006.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400214091
    Description :

    L’imputation fractionnaire paramétrique (IFP) proposée par Kim (2011) est un outil d’estimation des paramètres à usage général en cas de données manquantes. Nous proposons une imputation fractionnaire hot deck (IFHD), qui est plus robuste que l’IFP ou l’imputation multiple. Selon la méthode proposée, les valeurs imputées sont choisies parmi l’ensemble des répondants, et des pondérations fractionnaires appropriées leur sont assignées. Les pondérations sont ensuite ajustées pour répondre à certaines conditions de calage, ce qui garantit l’efficacité de l’estimateur IFHD résultant. Deux études de simulation sont présentées afin de comparer la méthode proposée aux méthodes existantes.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201300111825
    Description :

    Une limite importante des méthodes actuelles de vérification automatique des données tient au fait que toutes les vérifications sont traitées comme des contraintes fermes. Autrement dit, un rejet à la vérification suppose systématiquement une erreur dans les données. Par contre, dans le cas de la vérification manuelle, les spécialistes du domaine recourent aussi à de très nombreuses vérifications avec avertissement, c'est-à-dire des contraintes destinées à repérer les valeurs et combinaisons de valeurs qui sont suspectes mais pas forcément incorrectes. L'incapacité des méthodes de vérification automatique à traiter les vérifications avec avertissement explique partiellement pourquoi, en pratique, de nombreuses différences sont constatées entre les données vérifiées manuellement et celles vérifiées automatiquement. L'objet du présent article est de présenter une nouvelle formulation du problème de localisation des erreurs qui permet de faire la distinction entre les vérifications avec rejet (hard edits) et les vérifications avec avertissement (soft edits). En outre, il montre comment ce problème peut être résolu grâce à une extension de l'algorithme de localisation des erreurs de De Waal et Quere (2003).

    Date de diffusion : 2013-06-28

  • Articles et rapports : 11-522-X200800011010
    Description :

    L'Enquête sur l'emploi, la rémunération et les heures de travail (EERH) est une enquête mensuelle qui utilise deux sources de données : un recensement des formulaires de retenues sur la paye (PD7) (données administratives) et une enquête auprès des établissements. Le présent document est axé sur le traitement des données administratives, de la réception hebdomadaire des données de l'Agence du revenu du Canada à la production d'estimations mensuelles par les responsables de l'EERH.

    Les méthodes de contrôle et d'imputation utilisées pour traiter les données administratives ont été révisées au cours des dernières années. Les objectifs de ce remaniement étaient principalement d'améliorer la qualité des données et l'uniformité avec une autre source de données administratives (T4), qui constitue une mesure repère pour les responsables du Système de comptabilité nationale de Statistique Canada. On visait en outre à s'assurer que le nouveau processus serait plus facile à comprendre et à modifier, au besoin. Par conséquent, un nouveau module de traitement a été élaboré pour contrôler et imputer les formulaires PD7, avant l'agrégation des données au niveau mensuel.

    Le présent document comporte un aperçu des processus actuel et nouveau, y compris une description des défis auxquels nous avons fait face pendant l'élaboration. L'amélioration de la qualité est démontrée à la fois au niveau conceptuel (grâce à des exemples de formulaires PD7 et à leur traitement au moyen de l'ancien et du nouveau systèmes) et quantitativement (en comparaison avec les données T4).

    Date de diffusion : 2009-12-03

  • Articles et rapports : 11-522-X200800011014
    Description :

    Dans de nombreux pays, l'amélioration des statistiques économiques est au nombre des grandes priorités du 21e siècle. L'accent est mis, d'abord et avant tout, sur la qualité des comptes nationaux, tant annuels que trimestriels. À cet égard, la qualité des données sur les entreprises les plus grandes joue un rôle essentiel. L'analyse de cohérence est un outil fort utile pour s'assurer que les données fournies par ces entreprises sont de bonne qualité. Par cohérence, nous entendons que les données provenant de diverses sources concordent et brossent un tableau logique du développement de ces entreprises. Une analyse de cohérence efficace est généralement une tâche ardue qui consiste principalement à recueillir des données de différentes sources afin de les comparer de façon structurée. Au cours des deux dernières années, de grands progrès ont été accomplis à Statistics Sweden en ce qui concerne l'amélioration des routines servant à l'analyse de cohérence. Nous avons construit un outil TI qui recueille les données sur les plus grandes entreprises auprès d'un grand nombre de sources et les présente de manière structurée et logique, et nous avons élaboré une approche systématique d'analyse trimestrielle des données destinée aux comptes nationaux. Le présent article décrit les travaux effectués dans ces deux domaines et donne un aperçu de l'outil TI et des routines retenues.

    Date de diffusion : 2009-12-03

  • Articles et rapports : 11-522-X20040018755
    Description :

    Ce document examine la robustesse des méthodes traitant les erreurs de réponses pour des populations rares. Il examine aussi les problèmes de pondération pour ces populations. Il élabore un cadre de travail asymptotique pour traiter ces problèmes.

    Date de diffusion : 2005-10-27

  • Articles et rapports : 12-001-X20050018087
    Description :

    Dans le domaine de la statistique officielle, le processus de vérification des données joue un rôle important dans la rapidité de production, l'exactitude des données et les coûts d'enquête. Les techniques adoptées pour déceler et éliminer les erreurs que contiennent les données doivent essentiellement tenir compte simultanément de tous ces aspects. L'une des erreurs systématiques que l'on observe fréquemment dans les enquêtes visant à recueillir des données numériques est celle de l'unité de mesure. Cette erreur a une forte incidence sur la rapidité de production, l'exactitude des données et le coût de la phase de vérification et d'imputation. Dans le présent article, nous proposons une formalisation probabiliste du problème basée sur des modèles de mélanges finis. Ce cadre nous permet de traiter le problème dans un contexte multivarié et fournit en outre plusieurs diagnostics utiles pour établir la priorité des cas qui doivent être examinés plus en profondeur par examen manuel. Le classement des unités par ordre de priorité est important si l'on veut accroître l'exactitude des données, tout en évitant de perdre du temps en faisant le suivi d'unités qui ne sont pas vraiment critiques.

    Date de diffusion : 2005-07-21
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (16)

Analyses (16) (0 à 10 de 16 résultats)

  • Articles et rapports : 11-522-X202100100021
    Description : L’Institut national italien de statistique (Istat) a lancé un nouveau projet relatif aux processus statistiques à court terme, afin de respecter la future nouvelle réglementation européenne visant à diffuser des estimations plus rapidement. L’évaluation et l’analyse du processus d’enquête actuel de l’enquête à court terme sur le chiffre d’affaires dans les services (FAS) visent à relever la façon dont les meilleures caractéristiques des méthodes et pratiques actuelles peuvent être exploitées pour concevoir un processus plus « efficace ». Le projet devrait, en particulier, fournir des méthodes permettant d’appliquer en général d’importantes économies d’échelle, de portée et de connaissances au contexte de production des enquêtes à court terme, qui ont généralement recours à un nombre restreint de ressources. L’analyse du processus TEL QUEL a révélé que l’enquête FAS entraînait des coûts substantiels de vérification et d’imputation, en particulier du fait de l’importance du suivi et de la vérification interactive utilisés pour tous les types d’erreurs détectées. Dans cette optique, nous avons essayé d’exploiter les leçons retenues en participant au Groupe de haut niveau sur la modernisation des statistiques officielles (GHN-MSO, CEE-ONU) sur l’utilisation de l’apprentissage automatique dans les statistiques officielles. Dans cette étude, nous présentons une première expérience utilisant les modèles de forêt aléatoire pour : (i) prédire les unités représentant des données « douteuses », (ii) évaluer l’utilisation du potentiel de prédiction sur de nouvelles données et (iii) explorer des données afin de relever des règles et des tendances cachées. Nous nous concentrons en particulier sur le recours à la modélisation par forêt aléatoire pour comparer certaines autres méthodes en matière d’efficacité de la prédiction d’erreurs et pour traiter des aspects principaux de la nouvelle conception du schéma de vérification et d’imputation.
    Date de diffusion : 2021-10-15

  • Articles et rapports : 12-001-X201600114538
    Description :

    La vérification automatique consiste en l’utilisation d’un ordinateur pour déceler et corriger sans intervention humaine les valeurs erronées dans un ensemble de données. La plupart des méthodes de vérification automatique actuellement employées aux fins de la statistique officielle sont fondées sur les travaux fondamentaux de Fellegi et Holt (1976). La mise en application de cette méthode dans la pratique révèle des différences systématiques entre les données vérifiées manuellement et celles qui sont vérifiées de façon automatisée, car l’humain est en mesure d’effectuer des opérations de vérification complexes. L’auteur du présent article propose une généralisation du paradigme de Fellegi-Holt qui permet d’intégrer de façon naturelle une grande catégorie d’opérations de vérification. Il présente aussi un algorithme qui résout le problème généralisé de localisation des erreurs qui en découle. Il est à espérer que cette généralisation puisse améliorer la pertinence des vérifications automatiques dans la pratique et ainsi accroître l’efficience des processus de vérification des données. Certains des premiers résultats obtenus à l’aide de données synthétiques sont prometteurs à cet égard.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201400214089
    Description :

    Le présent document décrit l’utilisation de l’imputation multiple pour combiner l’information de plusieurs enquêtes de la même population sous-jacente. Nous utilisons une nouvelle méthode pour générer des populations synthétiques de façon non paramétrique à partir d’un bootstrap bayésien fondé sur une population finie qui tient systématiquement compte des plans d’échantillonnage complexes. Nous analysons ensuite chaque population synthétique au moyen d’un logiciel standard de données complètes pour les échantillons aléatoires simples et obtenons une inférence valide en combinant les estimations ponctuelles et de variance au moyen des extensions de règles de combinaison existantes pour les données synthétiques. Nous illustrons l’approche en combinant les données de la National Health Interview Survey (NHIS) de 2006 et de la Medical Expenditure Panel Survey (MEPS) de 2006.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400214091
    Description :

    L’imputation fractionnaire paramétrique (IFP) proposée par Kim (2011) est un outil d’estimation des paramètres à usage général en cas de données manquantes. Nous proposons une imputation fractionnaire hot deck (IFHD), qui est plus robuste que l’IFP ou l’imputation multiple. Selon la méthode proposée, les valeurs imputées sont choisies parmi l’ensemble des répondants, et des pondérations fractionnaires appropriées leur sont assignées. Les pondérations sont ensuite ajustées pour répondre à certaines conditions de calage, ce qui garantit l’efficacité de l’estimateur IFHD résultant. Deux études de simulation sont présentées afin de comparer la méthode proposée aux méthodes existantes.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201300111825
    Description :

    Une limite importante des méthodes actuelles de vérification automatique des données tient au fait que toutes les vérifications sont traitées comme des contraintes fermes. Autrement dit, un rejet à la vérification suppose systématiquement une erreur dans les données. Par contre, dans le cas de la vérification manuelle, les spécialistes du domaine recourent aussi à de très nombreuses vérifications avec avertissement, c'est-à-dire des contraintes destinées à repérer les valeurs et combinaisons de valeurs qui sont suspectes mais pas forcément incorrectes. L'incapacité des méthodes de vérification automatique à traiter les vérifications avec avertissement explique partiellement pourquoi, en pratique, de nombreuses différences sont constatées entre les données vérifiées manuellement et celles vérifiées automatiquement. L'objet du présent article est de présenter une nouvelle formulation du problème de localisation des erreurs qui permet de faire la distinction entre les vérifications avec rejet (hard edits) et les vérifications avec avertissement (soft edits). En outre, il montre comment ce problème peut être résolu grâce à une extension de l'algorithme de localisation des erreurs de De Waal et Quere (2003).

    Date de diffusion : 2013-06-28

  • Articles et rapports : 11-522-X200800011010
    Description :

    L'Enquête sur l'emploi, la rémunération et les heures de travail (EERH) est une enquête mensuelle qui utilise deux sources de données : un recensement des formulaires de retenues sur la paye (PD7) (données administratives) et une enquête auprès des établissements. Le présent document est axé sur le traitement des données administratives, de la réception hebdomadaire des données de l'Agence du revenu du Canada à la production d'estimations mensuelles par les responsables de l'EERH.

    Les méthodes de contrôle et d'imputation utilisées pour traiter les données administratives ont été révisées au cours des dernières années. Les objectifs de ce remaniement étaient principalement d'améliorer la qualité des données et l'uniformité avec une autre source de données administratives (T4), qui constitue une mesure repère pour les responsables du Système de comptabilité nationale de Statistique Canada. On visait en outre à s'assurer que le nouveau processus serait plus facile à comprendre et à modifier, au besoin. Par conséquent, un nouveau module de traitement a été élaboré pour contrôler et imputer les formulaires PD7, avant l'agrégation des données au niveau mensuel.

    Le présent document comporte un aperçu des processus actuel et nouveau, y compris une description des défis auxquels nous avons fait face pendant l'élaboration. L'amélioration de la qualité est démontrée à la fois au niveau conceptuel (grâce à des exemples de formulaires PD7 et à leur traitement au moyen de l'ancien et du nouveau systèmes) et quantitativement (en comparaison avec les données T4).

    Date de diffusion : 2009-12-03

  • Articles et rapports : 11-522-X200800011014
    Description :

    Dans de nombreux pays, l'amélioration des statistiques économiques est au nombre des grandes priorités du 21e siècle. L'accent est mis, d'abord et avant tout, sur la qualité des comptes nationaux, tant annuels que trimestriels. À cet égard, la qualité des données sur les entreprises les plus grandes joue un rôle essentiel. L'analyse de cohérence est un outil fort utile pour s'assurer que les données fournies par ces entreprises sont de bonne qualité. Par cohérence, nous entendons que les données provenant de diverses sources concordent et brossent un tableau logique du développement de ces entreprises. Une analyse de cohérence efficace est généralement une tâche ardue qui consiste principalement à recueillir des données de différentes sources afin de les comparer de façon structurée. Au cours des deux dernières années, de grands progrès ont été accomplis à Statistics Sweden en ce qui concerne l'amélioration des routines servant à l'analyse de cohérence. Nous avons construit un outil TI qui recueille les données sur les plus grandes entreprises auprès d'un grand nombre de sources et les présente de manière structurée et logique, et nous avons élaboré une approche systématique d'analyse trimestrielle des données destinée aux comptes nationaux. Le présent article décrit les travaux effectués dans ces deux domaines et donne un aperçu de l'outil TI et des routines retenues.

    Date de diffusion : 2009-12-03

  • Articles et rapports : 11-522-X20040018755
    Description :

    Ce document examine la robustesse des méthodes traitant les erreurs de réponses pour des populations rares. Il examine aussi les problèmes de pondération pour ces populations. Il élabore un cadre de travail asymptotique pour traiter ces problèmes.

    Date de diffusion : 2005-10-27

  • Articles et rapports : 12-001-X20050018087
    Description :

    Dans le domaine de la statistique officielle, le processus de vérification des données joue un rôle important dans la rapidité de production, l'exactitude des données et les coûts d'enquête. Les techniques adoptées pour déceler et éliminer les erreurs que contiennent les données doivent essentiellement tenir compte simultanément de tous ces aspects. L'une des erreurs systématiques que l'on observe fréquemment dans les enquêtes visant à recueillir des données numériques est celle de l'unité de mesure. Cette erreur a une forte incidence sur la rapidité de production, l'exactitude des données et le coût de la phase de vérification et d'imputation. Dans le présent article, nous proposons une formalisation probabiliste du problème basée sur des modèles de mélanges finis. Ce cadre nous permet de traiter le problème dans un contexte multivarié et fournit en outre plusieurs diagnostics utiles pour établir la priorité des cas qui doivent être examinés plus en profondeur par examen manuel. Le classement des unités par ordre de priorité est important si l'on veut accroître l'exactitude des données, tout en évitant de perdre du temps en faisant le suivi d'unités qui ne sont pas vraiment critiques.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 11-522-X20030017708
    Description :

    Cet article donne un aperçu du travail accompli, à ce jour, dans l'utilisation des données de la TPS à Statistique Canada comme remplacement direct au niveau de l'imputation ou de l'estimation ou comme outil de certification des données.

    Date de diffusion : 2005-01-26
Références (4)

Références (4) ((4 résultats))

  • Enquêtes et programmes statistiques — Documentation : 13-604-M2004045
    Description :

    Quelle est la « qualité » des Indicateurs nationaux du tourisme (INT)? Comment peut-elle être mesurée? Cette étude vise à répondre à ces questions grâce à une analyse des révisions des estimations des INT de 1997 à 2001.

    Date de diffusion : 2004-10-25

  • Enquêtes et programmes statistiques — Documentation : 92-390-X
    Description :

    Ce rapport renferme une définition sur le concept de lieu de travail en 2001 et sur la géographie du lieu de travail, ainsi qu'un texte normalisé sur la collecte des données et la couverture (méthodes de collecte des données, études spéciales sur la couverture, échantillonnage et pondération, contrôle et suivi, considérations sur la couverture et le contenu). Il contient également des textes généraux et spécialisés sur l'assimilation des données (codage automatisé et interactif), sur le contrôle et l'imputation ainsi que sur l'évaluation des données. Enfin, ce rapport technique contient une section traitant de la comparabilité des données dans le temps.

    Date de diffusion : 2004-08-26

  • Enquêtes et programmes statistiques — Documentation : 92-388-X
    Description :

    Ce rapport technique présente des renseignements de base sur les concepts et la qualité des données visant à faciliter l'utilisation et l'interprétation des données du recensement sur la profession. Il donne un aperçu des activités de collecte, de codage (selon la Classification nationale des professions pour statistiques de 2001), de contrôle et d'imputation des données sur la profession du recensement de 2001 ainsi qu'une description des changements apportés aux procédures du recensement de 2001 par rapport à celles des recensements précédents. Le rapport fournit également une analyse du degré de qualité des données du recensement de 2001 sur la profession et donne une description des modifications apportées à la Classification type des professions de 1991 utilisée lors des recensements de 1991 et de 1996 en vue d'établir la Classification nationale des professions pour statistiques de 2001 (CNP-S 2001), utilisée pour le recensement de 2001. Le rapport traite également de la comparabilité dans le temps des données codées selon ces deux classifications. Les annexes renferment un tableau présentant les données chronologiques des recensements de 1991, 1996 et 2001.

    Date de diffusion : 2004-07-15

  • Enquêtes et programmes statistiques — Documentation : 75F0002M1998012
    Description :

    Dans ce document, on étudie les activités du groupe de travail responsable de la révision des programmes statistiques sur les ménages et le revenu familial de Statistique Canada, ainsi que l'un des changements apportés aux programmes correspondants, à savoir l'intégration de deux importantes sources de données annuelles sur le revenu au Canada : l'Enquête sur les finances des consommateurs (EFC) et l'Enquête sur la dynamique du travail et du revenu (EDTR).

    Date de diffusion : 1998-12-30
Date de modification :