Vérification et imputation

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (93)

Tout (93) (40 à 50 de 93 résultats)

  • Articles et rapports : 75F0002M2005010
    Description :

    Depuis un certain temps, la Société canadienne d'hypothèques et de logement (SCHL) utilise les données du Recensement de la population sur les caractéristiques du logement et les dépenses liées au logement. Bien que la source de données que constitue le recensement réponde dans une large mesure aux besoins de la SCHL, cet organisme du gouvernement fédéral a exploité les enquêtes-ménages annuelles de Statistique Canada pour obtenir des renseignements plus fréquents. Cela devait lui permettre d'avoir une image plus fidèle des tendances annuelles, et peut-être d'avoir un plus grand choix d'autres caractéristiques pour le recoupement des données sur le logement des ménages canadiens. En 2001, la SCHL a commencé à commanditer des questions supplémentaires à la fois dans l'Enquête sur la dynamique du travail et du revenu (EDTR) et dans l'Enquête sur les dépenses des ménages (EDM), à compter de l'année de référence 2002.

    Date de diffusion : 2005-07-22

  • Articles et rapports : 12-001-X20050018087
    Description :

    Dans le domaine de la statistique officielle, le processus de vérification des données joue un rôle important dans la rapidité de production, l'exactitude des données et les coûts d'enquête. Les techniques adoptées pour déceler et éliminer les erreurs que contiennent les données doivent essentiellement tenir compte simultanément de tous ces aspects. L'une des erreurs systématiques que l'on observe fréquemment dans les enquêtes visant à recueillir des données numériques est celle de l'unité de mesure. Cette erreur a une forte incidence sur la rapidité de production, l'exactitude des données et le coût de la phase de vérification et d'imputation. Dans le présent article, nous proposons une formalisation probabiliste du problème basée sur des modèles de mélanges finis. Ce cadre nous permet de traiter le problème dans un contexte multivarié et fournit en outre plusieurs diagnostics utiles pour établir la priorité des cas qui doivent être examinés plus en profondeur par examen manuel. Le classement des unités par ordre de priorité est important si l'on veut accroître l'exactitude des données, tout en évitant de perdre du temps en faisant le suivi d'unités qui ne sont pas vraiment critiques.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018088
    Description :

    Lorsqu'on couple géographiquement les enregistrements d'une base de données administratives à des groupes d'îlots de recensement, les caractéristiques locales tirées du recensement peuvent être utilisées comme variables contextuelles susceptibles de compléter utilement les variables qui ne peuvent être observées directement à partir des dossiers administratifs. Les bases de données contiennent souvent des enregistrements dont les renseignements sur l'adresse ne suffisent pas pour le couplage géographique avec des groupes d'îlots de recensement; par conséquent, les variables contextuelles pour ces enregistrements ne sont pas observées. Nous proposons une nouvelle méthode qui consiste à utiliser l'information provenant des « cas appariés » et des modèles de régression multivariée pour créer des imputations multiples pour les variables non observées. Notre méthode donne de meilleurs résultats que d'autres dans les études par simulation au moyen de données du recensement et a été appliquée à un ensemble de données choisi pour étudier les profils de traitement des personnes atteintes d'un cancer du côlon et du rectum.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 11-522-X20030017708
    Description :

    Cet article donne un aperçu du travail accompli, à ce jour, dans l'utilisation des données de la TPS à Statistique Canada comme remplacement direct au niveau de l'imputation ou de l'estimation ou comme outil de certification des données.

    Date de diffusion : 2005-01-26

  • Articles et rapports : 11-522-X20030017722
    Description :

    Dans ce document, on montre comment adapter les cadres de travail basés sur le plan de sondage et basés sur un modèle dans le cas de l'échantillonnage à deux degrés

    Date de diffusion : 2005-01-26

  • Articles et rapports : 11-522-X20030017724
    Description :

    Dans ce document, on présente les résultats pour deux applications de vérification et d'imputation, c'est à dire la UK Annual Business Inquiry et le fichier de données sur les ménages de l'échantillon à 1 % du Recensement du Royaume Uni (le SARS) et pour une application sur les données manquantes fondée sur l'Enquête sur la population active du Danemark.

    Date de diffusion : 2005-01-26

  • Articles et rapports : 11-522-X20030017725
    Description :

    Dans ce document, on examine les techniques servant à imputer les données d'enquête manquantes.

    Date de diffusion : 2005-01-26

  • Enquêtes et programmes statistiques — Documentation : 71F0031X2005002
    Description :

    Cet article est une introduction ainsi qu'une discussion sur les modifications apportées aux estimations de l'Enquête sur la population active en janvier 2005. Parmi ces modifications on retrouve notamment l'ajustement de toutes les estimations de l'EPA en fonction des chiffres de population basés sur le Recensement de 2001, des mise à jour aux systèmes de classification des industries et des occupations ainsi que des changements au remaniement de l'échantillon.

    Date de diffusion : 2005-01-26

  • Enquêtes et programmes statistiques — Documentation : 92-397-X
    Description :

    Ce rapport porte sur les concepts et définitions, sur la méthode d'imputation et sur la qualité des données de cette variable. Le recensement de 2001 a recueilli de l'information sur trois types de fonctions non rémunérées effectuées durant la semaine précédant celle du recensement : il s'agit des soins aux enfants, des travaux ménagers et des soins aux personnes âgées. Les données sur le travail non rémunéré de 2001 sont comparées à celles recueillies lors du recensement de 1996 de même qu'aux données provenant de l'enquête sociale générale (sur l'emploi du temps de 1998). Le rapport comprend également des tableaux historiques.

    Date de diffusion : 2005-01-11

  • Articles et rapports : 11-522-X20020016715
    Description :

    Dans cet article, on décrit l'imputation multiple de données sur le revenu dans le cas de la National Health Interview Survey et les problèmes méthodologiques qui se posent. En outre, on présente des résumés empiriques des imputations ainsi que les résultats d'une évaluation par la méthode de Monte Carlo des inférences basées sur des données sur le revenu résultant d'une imputation multiple.

    Les analystes de données sur la santé cherchent souvent à étudier les liens qui existent entre le revenu et la santé. La National Health Interview Survey, réalisée par le National Center for Health Statistics des Centers for Disease Control and Prevention aux États-Unis, constitue une riche source de données pour l'étude de tels liens. Cependant, les taux de non-réponse à deux questions essentielles sur le revenu, à savoir le revenu personnel et le revenu familial total, sont supérieurs à 20 %. En outre, ces taux de non-réponse semblent augmenter au fil du temps. Un projet en cours de réalisation vise à procéder à une imputation multiple du revenu personnel et du revenu familial, ainsi que des valeurs de certaines autres covariables pour les cycles de la National Health Interview Survey de 1997 et des années subséquentes.

    La mise au point de méthodes d'imputation multiple appropriées pour des enquêtes à aussi grande échelle pose de nombreux défis. D'abord, il existe un grand nombre de variables de divers types pour lesquelles les sauts de questions et les relations logiques diffèrent. Ensuite, on ignore quelles associations seront étudiées par les analystes des données résultant d'imputations multiples. Enfin, les données sur certaines variables, comme le revenu familial, sont recueillies à l'échelle des familles et d'autres, comme le revenu tiré d'un travail, le sont à l'échelle des particuliers. Afin que les imputations pour les variables à l'échelle des familles et des particuliers soient subordonnées à un aussi grand nombre de prédicteurs que possible, et pour simplifier la modélisation, on utilise une version modifiée de la méthode d'imputation par régression séquentielle décrite dans Raghunathan et coll. (Techniques d'enquête, 2001).

    Outre les problèmes liés à la nature hiérarchique des imputations qu'on vient de décrire, d'autres questions méthodologiques méritent d'être examinées, comme l'utilisation de transformations des variables de revenu, l'imposition de restrictions sur les valeurs des variables, la validité générale de l'imputation par régression séquentielle et, de façon encore plus générale, la validité des inférences basées sur une imputation multiple dans le cas d'enquêtes à plan d'échantillonnage complexe.

    Date de diffusion : 2004-09-13
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (85)

Analyses (85) (40 à 50 de 85 résultats)

  • Articles et rapports : 12-001-X20050018087
    Description :

    Dans le domaine de la statistique officielle, le processus de vérification des données joue un rôle important dans la rapidité de production, l'exactitude des données et les coûts d'enquête. Les techniques adoptées pour déceler et éliminer les erreurs que contiennent les données doivent essentiellement tenir compte simultanément de tous ces aspects. L'une des erreurs systématiques que l'on observe fréquemment dans les enquêtes visant à recueillir des données numériques est celle de l'unité de mesure. Cette erreur a une forte incidence sur la rapidité de production, l'exactitude des données et le coût de la phase de vérification et d'imputation. Dans le présent article, nous proposons une formalisation probabiliste du problème basée sur des modèles de mélanges finis. Ce cadre nous permet de traiter le problème dans un contexte multivarié et fournit en outre plusieurs diagnostics utiles pour établir la priorité des cas qui doivent être examinés plus en profondeur par examen manuel. Le classement des unités par ordre de priorité est important si l'on veut accroître l'exactitude des données, tout en évitant de perdre du temps en faisant le suivi d'unités qui ne sont pas vraiment critiques.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018088
    Description :

    Lorsqu'on couple géographiquement les enregistrements d'une base de données administratives à des groupes d'îlots de recensement, les caractéristiques locales tirées du recensement peuvent être utilisées comme variables contextuelles susceptibles de compléter utilement les variables qui ne peuvent être observées directement à partir des dossiers administratifs. Les bases de données contiennent souvent des enregistrements dont les renseignements sur l'adresse ne suffisent pas pour le couplage géographique avec des groupes d'îlots de recensement; par conséquent, les variables contextuelles pour ces enregistrements ne sont pas observées. Nous proposons une nouvelle méthode qui consiste à utiliser l'information provenant des « cas appariés » et des modèles de régression multivariée pour créer des imputations multiples pour les variables non observées. Notre méthode donne de meilleurs résultats que d'autres dans les études par simulation au moyen de données du recensement et a été appliquée à un ensemble de données choisi pour étudier les profils de traitement des personnes atteintes d'un cancer du côlon et du rectum.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 11-522-X20030017708
    Description :

    Cet article donne un aperçu du travail accompli, à ce jour, dans l'utilisation des données de la TPS à Statistique Canada comme remplacement direct au niveau de l'imputation ou de l'estimation ou comme outil de certification des données.

    Date de diffusion : 2005-01-26

  • Articles et rapports : 11-522-X20030017722
    Description :

    Dans ce document, on montre comment adapter les cadres de travail basés sur le plan de sondage et basés sur un modèle dans le cas de l'échantillonnage à deux degrés

    Date de diffusion : 2005-01-26

  • Articles et rapports : 11-522-X20030017724
    Description :

    Dans ce document, on présente les résultats pour deux applications de vérification et d'imputation, c'est à dire la UK Annual Business Inquiry et le fichier de données sur les ménages de l'échantillon à 1 % du Recensement du Royaume Uni (le SARS) et pour une application sur les données manquantes fondée sur l'Enquête sur la population active du Danemark.

    Date de diffusion : 2005-01-26

  • Articles et rapports : 11-522-X20030017725
    Description :

    Dans ce document, on examine les techniques servant à imputer les données d'enquête manquantes.

    Date de diffusion : 2005-01-26

  • Articles et rapports : 11-522-X20020016715
    Description :

    Dans cet article, on décrit l'imputation multiple de données sur le revenu dans le cas de la National Health Interview Survey et les problèmes méthodologiques qui se posent. En outre, on présente des résumés empiriques des imputations ainsi que les résultats d'une évaluation par la méthode de Monte Carlo des inférences basées sur des données sur le revenu résultant d'une imputation multiple.

    Les analystes de données sur la santé cherchent souvent à étudier les liens qui existent entre le revenu et la santé. La National Health Interview Survey, réalisée par le National Center for Health Statistics des Centers for Disease Control and Prevention aux États-Unis, constitue une riche source de données pour l'étude de tels liens. Cependant, les taux de non-réponse à deux questions essentielles sur le revenu, à savoir le revenu personnel et le revenu familial total, sont supérieurs à 20 %. En outre, ces taux de non-réponse semblent augmenter au fil du temps. Un projet en cours de réalisation vise à procéder à une imputation multiple du revenu personnel et du revenu familial, ainsi que des valeurs de certaines autres covariables pour les cycles de la National Health Interview Survey de 1997 et des années subséquentes.

    La mise au point de méthodes d'imputation multiple appropriées pour des enquêtes à aussi grande échelle pose de nombreux défis. D'abord, il existe un grand nombre de variables de divers types pour lesquelles les sauts de questions et les relations logiques diffèrent. Ensuite, on ignore quelles associations seront étudiées par les analystes des données résultant d'imputations multiples. Enfin, les données sur certaines variables, comme le revenu familial, sont recueillies à l'échelle des familles et d'autres, comme le revenu tiré d'un travail, le sont à l'échelle des particuliers. Afin que les imputations pour les variables à l'échelle des familles et des particuliers soient subordonnées à un aussi grand nombre de prédicteurs que possible, et pour simplifier la modélisation, on utilise une version modifiée de la méthode d'imputation par régression séquentielle décrite dans Raghunathan et coll. (Techniques d'enquête, 2001).

    Outre les problèmes liés à la nature hiérarchique des imputations qu'on vient de décrire, d'autres questions méthodologiques méritent d'être examinées, comme l'utilisation de transformations des variables de revenu, l'imposition de restrictions sur les valeurs des variables, la validité générale de l'imputation par régression séquentielle et, de façon encore plus générale, la validité des inférences basées sur une imputation multiple dans le cas d'enquêtes à plan d'échantillonnage complexe.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016716
    Description :

    Le problème des données manquantes se pose dans toutes les enquêtes à grande échelle. Habituellement, on le contourne en limitant l'analyse aux cas pour lesquels les enregistrements sont complets ou en imputant, pour chaque question dont la réponse manque, une valeur estimée efficacement. Dans cet article, on examine les défauts de ces approches, particulièrement dans le contexte de l'estimation d'un grand nombre de quantités. L'article porte principalement sur deux exemples d'analyse basée sur l'imputation multiple.

    Dans le premier exemple, les données sur la situation d'emploi selon les critères de l'Organisation internationale du travail (OIT) sont imputées, dans le cas de la British Labour Force Survey, par une méthode bootstrap bayesienne. Il s'agit d'une adaptation de la méthode hot deck qui vise à exploiter pleinement les données auxiliaires. Des données auxiliaires importantes sont fournies par la situation OIT antérieure, si elle est connue, ainsi que les variables démographiques ordinaires.

    Les données manquantes peuvent être interprétées de façon plus générale, comme dans le cadre de l'algorithme EM (expectation maximization). Le deuxième exemple, tiré de la Scottish House Condition Survey, porte sur l'incohérence des enquêteurs. Ces derniers évaluent les unités de logement échantillonnées en fonction d'un grand nombre d'éléments ou de caractéristiques du logement, comme les murs internes, le toit et la plomberie, auxquels sont attribués des scores qui sont convertis de façon globale en un « coût de réparation complet ». Le degré d'incohérence est estimé d'après les discordances entre les paires d'évaluations de logements ayant fait l'objet d'une double inspection. Les questions principales ont trait à la quantité d'information perdue en raison de l'incohérence et cherchent à savoir si les estimateurs naïfs qui ne tiennent pas compte de cette incohérence sont biaisés. Le problème est résolu par l'imputation multiple qui génère des scores plausibles pour tous les logements visés par l'enquête.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 12-001-X20040016994
    Description :

    Dans une imputation où on attribue des valeurs à des réponses manquantes d'enquête par sondage, de simples méthodes d'estimation de variance des estimations d'enquête où on traite les valeurs d'imputation comme s'il s'agissait de valeurs observées donnent des estimations entachées d'un biais. Nous traiterons de ce problème dans le cas d'un estimateur linéaire où les valeurs manquantes sont attribuées par simple imputation par donneur (c'est une forme d'imputation qui est répandue dans la pratique). Nous proposerons des estimateurs de variance pour un estimateur linéaire à imputation par donneur (imputation « hot-deck ») en procédant à une décomposition de la variance totale proposée par Särndal (1992). Nous concevrons un traitement conditionnel d'estimation de variance qui est applicable à une imputation par donneur avec et sans pondération. Nous examinerons enfin l'estimation de variance pour un estimateur par domaine.

    Date de diffusion : 2004-07-14

  • Articles et rapports : 12-001-X20030026785
    Description :

    L'une des méthodes permettant d'éviter les divulgations consiste à diffuser des ensembles de microdonnées à grande diffusion partiellement synthétiques. Ces ensembles comprennent les unités enquêtés au départ, mais certaines valeurs recueillies, comme celles de nature délicate présentant un haut risque de divulgation ou celles d'identificateurs clés, sont remplacées par des imputations multiples. Bien qu'on recoure à l'heure actuelle à des approches partiellement synthétiques pour protéger les données à grande diffusion, on ne les a pas encore assorties de méthodes d'inférence valides. Le présent article décrit de telles méthodes. Elles sont fondées sur les concepts de l'imputation multiple en vue de remplacer des données manquantes, mais s'appuient sur des règles différentes pour combiner les estimations ponctuelles et les estimations de la variance. Ces règles de combinaison diffèrent aussi de celles élaborées par Raghunathan, Reiter et Rubin (2003) pour les ensembles de données entièrement synthétiques. La validité de ces nouvelles règles est illustrée au moyen d'études par simulation.

    Date de diffusion : 2004-01-27
Références (7)

Références (7) ((7 résultats))

  • Enquêtes et programmes statistiques — Documentation : 71F0031X2005002
    Description :

    Cet article est une introduction ainsi qu'une discussion sur les modifications apportées aux estimations de l'Enquête sur la population active en janvier 2005. Parmi ces modifications on retrouve notamment l'ajustement de toutes les estimations de l'EPA en fonction des chiffres de population basés sur le Recensement de 2001, des mise à jour aux systèmes de classification des industries et des occupations ainsi que des changements au remaniement de l'échantillon.

    Date de diffusion : 2005-01-26

  • Enquêtes et programmes statistiques — Documentation : 92-397-X
    Description :

    Ce rapport porte sur les concepts et définitions, sur la méthode d'imputation et sur la qualité des données de cette variable. Le recensement de 2001 a recueilli de l'information sur trois types de fonctions non rémunérées effectuées durant la semaine précédant celle du recensement : il s'agit des soins aux enfants, des travaux ménagers et des soins aux personnes âgées. Les données sur le travail non rémunéré de 2001 sont comparées à celles recueillies lors du recensement de 1996 de même qu'aux données provenant de l'enquête sociale générale (sur l'emploi du temps de 1998). Le rapport comprend également des tableaux historiques.

    Date de diffusion : 2005-01-11

  • Enquêtes et programmes statistiques — Documentation : 92-388-X
    Description :

    Ce rapport technique présente des renseignements de base sur les concepts et la qualité des données visant à faciliter l'utilisation et l'interprétation des données du recensement sur la profession. Il donne un aperçu des activités de collecte, de codage (selon la Classification nationale des professions pour statistiques de 2001), de contrôle et d'imputation des données sur la profession du recensement de 2001 ainsi qu'une description des changements apportés aux procédures du recensement de 2001 par rapport à celles des recensements précédents. Le rapport fournit également une analyse du degré de qualité des données du recensement de 2001 sur la profession et donne une description des modifications apportées à la Classification type des professions de 1991 utilisée lors des recensements de 1991 et de 1996 en vue d'établir la Classification nationale des professions pour statistiques de 2001 (CNP-S 2001), utilisée pour le recensement de 2001. Le rapport traite également de la comparabilité dans le temps des données codées selon ces deux classifications. Les annexes renferment un tableau présentant les données chronologiques des recensements de 1991, 1996 et 2001.

    Date de diffusion : 2004-07-15

  • Enquêtes et programmes statistiques — Documentation : 92-398-X
    Description :

    Ce rapport contient des renseignements de base sur les concepts et la qualité des données visant à faciliter l'utilisation et l'interprétation des données du recensement sur la catégorie de travailleurs. Il donne un aperçu du cycle de traitement des données, qui comprend notamment le dépouillement régional ainsi que le contrôle et l'imputation. Enfin, ce rapport contient des tableaux sommaires faisant état de la qualité des données du recensement de 2001 sur la catégorie de travailleurs.

    Date de diffusion : 2004-04-22

  • Enquêtes et programmes statistiques — Documentation : 85-602-X
    Description :

    L'objet du présent rapport est de faire le survol des méthodes et techniques existantes qui utilisent les identificateurs personnels en vue de réaliser le couplage des enregistrements. Ce couplage peut être décrit de façon générale comme une méthode de traitement ou de transformation des identificateurs personnels tirés des dossiers personnels enregistrés dans l'une ou plusieurs bases de données opérationnelles afin de jumeler les identificateurs et de créer un dossier composé sur un particulier. Le couplage des enregistrements ne vise pas seulement à identifier les particuliers à des fins opérationnelles, mais à établir les concordances probabilistes de degrés de fiabilité variés à des fins de rapports statistiques. Les techniques utilisées dans le cadre du couplage d'enregistrements peuvent également servir dans les enquêtes afin d'en restreindre le champ dans les bases de données, lorsque des renseignements sur les identificateurs personnels existent.

    Date de diffusion : 2000-12-05

  • Enquêtes et programmes statistiques — Documentation : 75F0002M1998012
    Description :

    Dans ce document, on étudie les activités du groupe de travail responsable de la révision des programmes statistiques sur les ménages et le revenu familial de Statistique Canada, ainsi que l'un des changements apportés aux programmes correspondants, à savoir l'intégration de deux importantes sources de données annuelles sur le revenu au Canada : l'Enquête sur les finances des consommateurs (EFC) et l'Enquête sur la dynamique du travail et du revenu (EDTR).

    Date de diffusion : 1998-12-30

  • Enquêtes et programmes statistiques — Documentation : 75F0002M1997006
    Description :

    Dans ce document, on présente la méthode de vérification et d'imputation retenue lors du traitement des données sur le revenu de la première vague de l'Enquête sur la dynamique du travail et du revenu (EDTR).

    Date de diffusion : 1997-12-31
Date de modification :