Vérification et imputation

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (93)

Tout (93) (20 à 30 de 93 résultats)

  • Articles et rapports : 12-001-X201400114001
    Description :

    Le présent article traite de l’effet de différentes méthodes d’échantillonnage sur la qualité de l’échantillon réalisé. On s’attendait à ce que cet effet dépende de la mesure dans laquelle les intervieweurs ont la liberté d’interviewer des personnes avec lesquelles il leur est facile de prendre contact ou dont il leur est facile d’obtenir la coopération (donc d’effectuer des substitutions). L’analyse a été menée dans un contexte transculturel en utilisant des données provenant des quatre premières vagues de l’Enquête sociale européenne (ESS, pour European Social Survey). Les substitutions sont mesurées par les écarts par rapport au ratio hommes-femmes de 50/50 dans des sous-échantillons constitués de couples hétérosexuels. Des écarts importants ont été observés dans de nombreux pays qui participent à l’ESS. Ces écarts se sont également avérés les plus faibles lorsque des registres officiels de résidents avaient servi de base de sondage pour le tirage des échantillons (échantillonnage à partir de registres de personnes) dans le cas où l’un des conjoints était plus difficile à joindre que l’autre. Cette portée des substitutions ne variait pas d’une vague à l’autre de l’ESS et était faiblement corrélée au mode de rémunération et aux procédures de contrôle des intervieweurs. Les résultats permettent de conclure que les échantillons tirés de registres de personnes sont de plus haute qualité.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201400114002
    Description :

    Nous proposons une approche d’imputation multiple des réponses manquant aléatoirement dans les enquêtes à grande échelle qui ne portent que sur des variables catégoriques présentant des zéros structurels. Notre approche consiste à utiliser des mélanges de lois multinomiales comme outils d’imputation et à tenir compte des zéros structurels en concevant les données observées comme un échantillon tronqué issu d’une population hypothétique ne contenant pas de zéros structurels. Cette approche possède plusieurs caractéristiques intéressantes : les imputations sont générées à partir de modèles bayésiens conjoints cohérents qui tiennent compte automatiquement des dépendances complexes et s’adaptent facilement à de grands nombres de variables. Nous décrivons un algorithme d’échantillonnage de Gibbs pour mettre en œuvre l’approche et illustrons son potentiel au moyen d’une étude par échantillonnage répété en utilisant des microdonnées de recensement à grande diffusion provenant de l’État de New York, aux États Unis.

    Date de diffusion : 2014-06-27

  • Articles et rapports : 12-001-X201300111825
    Description :

    Une limite importante des méthodes actuelles de vérification automatique des données tient au fait que toutes les vérifications sont traitées comme des contraintes fermes. Autrement dit, un rejet à la vérification suppose systématiquement une erreur dans les données. Par contre, dans le cas de la vérification manuelle, les spécialistes du domaine recourent aussi à de très nombreuses vérifications avec avertissement, c'est-à-dire des contraintes destinées à repérer les valeurs et combinaisons de valeurs qui sont suspectes mais pas forcément incorrectes. L'incapacité des méthodes de vérification automatique à traiter les vérifications avec avertissement explique partiellement pourquoi, en pratique, de nombreuses différences sont constatées entre les données vérifiées manuellement et celles vérifiées automatiquement. L'objet du présent article est de présenter une nouvelle formulation du problème de localisation des erreurs qui permet de faire la distinction entre les vérifications avec rejet (hard edits) et les vérifications avec avertissement (soft edits). En outre, il montre comment ce problème peut être résolu grâce à une extension de l'algorithme de localisation des erreurs de De Waal et Quere (2003).

    Date de diffusion : 2013-06-28

  • Articles et rapports : 12-001-X201200211753
    Description :

    Dans les études longitudinales, la non-réponse est souvent de nature non monotone. Dans le cas de la Survey of Industrial Research and Development (SIRD), il est raisonnable de supposer que le mécanisme de non-réponse dépend des valeurs antérieures, en ce sens que la propension à répondre au sujet d'une variable étudiée au point t dans le temps dépend de la situation de réponse ainsi que des valeurs observées ou manquantes de la même variable aux points dans le temps antérieurs à t. Puisque cette non-réponse n'est pas ignorable, l'approche axée sur la vraisemblance paramétrique est sensible à la spécification des modèles paramétriques s'appuyant sur la distribution conjointe des variables à différents points dans le temps et sur le mécanisme de non-réponse. La non-réponse non monotone limite aussi l'application des méthodes de pondération par l'inverse de la propension à répondre. En écartant toutes les valeurs observées auprès d'un sujet après la première valeur manquante pour ce dernier, on peut créer un ensemble de données présentant une non-réponse monotone ignorable, puis appliquer les méthodes établies pour la non-réponse ignorable. Cependant, l'abandon de données observées n'est pas souhaitable et peut donner lieu à des estimateurs inefficaces si le nombre de données écartées est élevé. Nous proposons d'imputer les réponses manquantes par la régression au moyen de modèles d'imputation créés prudemment sous le mécanisme de non-réponse dépendante des valeurs antérieures. Cette méthode ne requiert l'ajustement d'aucun modèle paramétrique sur la distribution conjointe des variables à différents points dans le temps ni sur le mécanisme de non-réponse. Les propriétés des moyennes estimées en appliquant la méthode d'imputation proposée sont examinées en s'appuyant sur des études en simulation et une analyse empirique des données de la SIRD.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 12-001-X201200211759
    Description :

    L'un des avantages de l'imputation multiple est qu'elle permet aux utilisateurs des données de faire des inférences valides en appliquant des méthodes classiques avec des règles de combinaison simples. Toutefois, les règles de combinaison établies pour les tests d'hypothèse multivariés échouent quand l'erreur d'échantillonnage est nulle. Le présent article propose des tests modifiés utilisables dans les analyses en population finie de données de recensement comportant de multiples imputations pour contrôler la divulgation et remplacer des données manquantes, et donne une évaluation de leurs propriétés fréquentistes par simulation.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 12-001-X201200111687
    Description :

    Afin de créer des fichiers de données à grande diffusion à partir d'enquêtes à grande échelle, les organismes statistiques diffusent parfois des sous­échantillons aléatoires des enregistrements originaux. Le sous­échantillonnage aléatoire amenuise la taille des fichiers transmis aux analystes secondaires des données et réduit les risques de divulgation accidentelle de renseignements confidentiels sur les participants aux enquêtes. Cependant, le sous­échantillonnage n'élimine pas entièrement le risque, de sorte qu'il faut altérer les données avant leur diffusion. Nous proposons de créer des sous­échantillons protégés contre la divulgation provenant d'enquêtes à grande échelle en recourant à l'imputation multiple. L'idée consiste à remplacer dans l'échantillon original les valeurs identificatoires ou sensibles par des valeurs tirées de modèles statistiques et de diffuser des sous­échantillons de ces données protégées contre la divulgation. Nous présentons des méthodes permettant de faire des inférences fondées sur les multiples sous­échantillons synthétiques.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X201100211605
    Description :

    L'imputation composite est fréquemment employée dans les enquêtes auprès des entreprises. Le terme « composite » signifie que l'on utilise plus d'une méthode d'imputation pour remplacer les valeurs manquantes d'une variable d'intérêt. La littérature consacrée à l'estimation de la variance sous imputation composite est peu abondante. Afin de surmonter ce problème, nous examinons une extension de la méthodologie élaborée par Särndal (1992). Cette extension est de nature assez générale et est facile à mettre en oeuvre, à condition d'utiliser des méthodes d'imputation linéaires pour remplacer les valeurs manquantes. Cette catégorie de méthodes comprend l'imputation par régression linéaire, l'imputation par donneur et l'imputation par valeur auxiliaire, parfois appelée imputation « cold deck » ou imputation par substitution. Elle englobe donc les méthodes les plus couramment utilisées par les organismes statistiques nationaux pour imputer les valeurs manquantes. Notre méthodologie a été intégrée au Système d'estimation de la variance due à la non-réponse et à l'imputation (SEVANI), mis au point à Statistique Canada. Une étude par simulation est effectuée pour en évaluer les propriétés.

    Date de diffusion : 2011-12-21

  • Articles et rapports : 12-001-X200800210756
    Description :

    Dans les enquêtes longitudinales, la non-réponse survient souvent selon un schéma non monotone. Nous considérons l'estimation des moyennes dépendantes du temps sous l'hypothèse que le mécanisme de non-réponse dépend de la dernière valeur. Puisque cette dernière valeur peut elle-même manquer quand la non-réponse est non monotone, le mécanisme de non-réponse examiné est non ignorable. Nous proposons une méthode d'imputation qui consiste à établir d'abord certains modèles d'imputation par la régression en fonction du mécanisme de non-réponse, puis à appliquer l'imputation par la régression non paramétrique. Nous supposons que les données longitudinales suivent une chaîne de Markov admettant des moments finis de deuxième ordre. Aucune autre contrainte n'est imposée à la distribution conjointe des données longitudinales et à leurs indicateurs de non-réponse. La variance est estimée par une méthode du bootstrap. Nous présentons certains résultats de simulation et un exemple concernant une enquête sur l'emploi.

    Date de diffusion : 2008-12-23

  • Articles et rapports : 11-522-X200600110408
    Description :

    Malgré les progrès réalisés en vue d'améliorer la santé de la population des États Unis, des disparités en matière de santé persistent entre divers groupes raciaux/ethniques et socioéconomiques. Les sources habituelles de données pour évaluer la santé d'une population d'intérêt comprennent les enquêtes à grande échelle, qui contiennent souvent des questions à réponse autodéclarée, comme « Un médecin ou un autre professionnel de la santé vous a t-il déjà dit que vous souffrez de problème de santé d'intérêt ? Les réponses à de telles questions pourraient ne pas refléter la prévalence réelle des problèmes de santé (p. ex., si le répondant n'a pas accès à un médecin ou à un autre professionnel de la santé). De même, les renseignements autodéclarés concernant des données quantitatives telles que la taille et le poids pourraient être entachés d'erreurs de déclaration. Ce genre d'« erreurs de mesure » dans les données sur la santé pourraient avoir une incidence sur les inférences relatives aux mesures de la santé et aux disparités en matière de santé. Dans la présente étude, nous ajustons des modèles d'erreur de mesure aux données de la National Health and Nutrition Examination Survey, qui comprend un volet d'interview durant lequel sont posées des questions à réponse autodéclarée et un volet d'examen durant lequel sont obtenues des mesures physiques. Puis, nous élaborons des méthodes permettant d'utiliser les modèles ajustés pour améliorer l'analyse des données autodéclarées provenant d'une autre enquête ne comportant pas de volet d'examen. Enfin, nous appliquons ces méthodes, qui comportent l'imputation multiples de valeurs fondées sur les données recueillies par examen à l'enquête ne produisant que des données autodéclarées, à la National Health Interview Survey dans des exemples ayant trait au diabète, à l'hypertension et à l'obésité. Les résultats préliminaires laissent entendre que les ajustements pour l'erreur de mesure peuvent causer des variations non négligeables des estimations des mesures de la santé.

    Date de diffusion : 2008-03-17

  • Articles et rapports : 11-522-X200600110442
    Description :

    Le projet Healthy Outcomes of Pregnancy Education du district de Columbia est un essai randomisé financé par le National Institute of Child Health and Human Development et visant à mettre à l'essai l'efficacité d'une intervention intégrée de sensibilisation et de counselling (IISC) comparé aux soins habituels (SH) afin de réduire quatre comportements à risque chez les femmes enceintes. Les participantes ont été interviewées quatre fois. On a eu recours à la technique de l'imputation multiple pour estimer les données des interviews manquantes. La technique de l'imputation multiple a été appliquée deux fois : toutes les données ont été imputées simultanément une première fois et les données concernant les femmes des groupes IISC et SH ont été imputées séparément une deuxième fois. Les résultats des analyses des ensembles de données imputées et des données avant imputation sont comparés.

    Date de diffusion : 2008-03-17
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (85)

Analyses (85) (40 à 50 de 85 résultats)

  • Articles et rapports : 12-001-X20050018087
    Description :

    Dans le domaine de la statistique officielle, le processus de vérification des données joue un rôle important dans la rapidité de production, l'exactitude des données et les coûts d'enquête. Les techniques adoptées pour déceler et éliminer les erreurs que contiennent les données doivent essentiellement tenir compte simultanément de tous ces aspects. L'une des erreurs systématiques que l'on observe fréquemment dans les enquêtes visant à recueillir des données numériques est celle de l'unité de mesure. Cette erreur a une forte incidence sur la rapidité de production, l'exactitude des données et le coût de la phase de vérification et d'imputation. Dans le présent article, nous proposons une formalisation probabiliste du problème basée sur des modèles de mélanges finis. Ce cadre nous permet de traiter le problème dans un contexte multivarié et fournit en outre plusieurs diagnostics utiles pour établir la priorité des cas qui doivent être examinés plus en profondeur par examen manuel. Le classement des unités par ordre de priorité est important si l'on veut accroître l'exactitude des données, tout en évitant de perdre du temps en faisant le suivi d'unités qui ne sont pas vraiment critiques.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018088
    Description :

    Lorsqu'on couple géographiquement les enregistrements d'une base de données administratives à des groupes d'îlots de recensement, les caractéristiques locales tirées du recensement peuvent être utilisées comme variables contextuelles susceptibles de compléter utilement les variables qui ne peuvent être observées directement à partir des dossiers administratifs. Les bases de données contiennent souvent des enregistrements dont les renseignements sur l'adresse ne suffisent pas pour le couplage géographique avec des groupes d'îlots de recensement; par conséquent, les variables contextuelles pour ces enregistrements ne sont pas observées. Nous proposons une nouvelle méthode qui consiste à utiliser l'information provenant des « cas appariés » et des modèles de régression multivariée pour créer des imputations multiples pour les variables non observées. Notre méthode donne de meilleurs résultats que d'autres dans les études par simulation au moyen de données du recensement et a été appliquée à un ensemble de données choisi pour étudier les profils de traitement des personnes atteintes d'un cancer du côlon et du rectum.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 11-522-X20030017708
    Description :

    Cet article donne un aperçu du travail accompli, à ce jour, dans l'utilisation des données de la TPS à Statistique Canada comme remplacement direct au niveau de l'imputation ou de l'estimation ou comme outil de certification des données.

    Date de diffusion : 2005-01-26

  • Articles et rapports : 11-522-X20030017722
    Description :

    Dans ce document, on montre comment adapter les cadres de travail basés sur le plan de sondage et basés sur un modèle dans le cas de l'échantillonnage à deux degrés

    Date de diffusion : 2005-01-26

  • Articles et rapports : 11-522-X20030017724
    Description :

    Dans ce document, on présente les résultats pour deux applications de vérification et d'imputation, c'est à dire la UK Annual Business Inquiry et le fichier de données sur les ménages de l'échantillon à 1 % du Recensement du Royaume Uni (le SARS) et pour une application sur les données manquantes fondée sur l'Enquête sur la population active du Danemark.

    Date de diffusion : 2005-01-26

  • Articles et rapports : 11-522-X20030017725
    Description :

    Dans ce document, on examine les techniques servant à imputer les données d'enquête manquantes.

    Date de diffusion : 2005-01-26

  • Articles et rapports : 11-522-X20020016715
    Description :

    Dans cet article, on décrit l'imputation multiple de données sur le revenu dans le cas de la National Health Interview Survey et les problèmes méthodologiques qui se posent. En outre, on présente des résumés empiriques des imputations ainsi que les résultats d'une évaluation par la méthode de Monte Carlo des inférences basées sur des données sur le revenu résultant d'une imputation multiple.

    Les analystes de données sur la santé cherchent souvent à étudier les liens qui existent entre le revenu et la santé. La National Health Interview Survey, réalisée par le National Center for Health Statistics des Centers for Disease Control and Prevention aux États-Unis, constitue une riche source de données pour l'étude de tels liens. Cependant, les taux de non-réponse à deux questions essentielles sur le revenu, à savoir le revenu personnel et le revenu familial total, sont supérieurs à 20 %. En outre, ces taux de non-réponse semblent augmenter au fil du temps. Un projet en cours de réalisation vise à procéder à une imputation multiple du revenu personnel et du revenu familial, ainsi que des valeurs de certaines autres covariables pour les cycles de la National Health Interview Survey de 1997 et des années subséquentes.

    La mise au point de méthodes d'imputation multiple appropriées pour des enquêtes à aussi grande échelle pose de nombreux défis. D'abord, il existe un grand nombre de variables de divers types pour lesquelles les sauts de questions et les relations logiques diffèrent. Ensuite, on ignore quelles associations seront étudiées par les analystes des données résultant d'imputations multiples. Enfin, les données sur certaines variables, comme le revenu familial, sont recueillies à l'échelle des familles et d'autres, comme le revenu tiré d'un travail, le sont à l'échelle des particuliers. Afin que les imputations pour les variables à l'échelle des familles et des particuliers soient subordonnées à un aussi grand nombre de prédicteurs que possible, et pour simplifier la modélisation, on utilise une version modifiée de la méthode d'imputation par régression séquentielle décrite dans Raghunathan et coll. (Techniques d'enquête, 2001).

    Outre les problèmes liés à la nature hiérarchique des imputations qu'on vient de décrire, d'autres questions méthodologiques méritent d'être examinées, comme l'utilisation de transformations des variables de revenu, l'imposition de restrictions sur les valeurs des variables, la validité générale de l'imputation par régression séquentielle et, de façon encore plus générale, la validité des inférences basées sur une imputation multiple dans le cas d'enquêtes à plan d'échantillonnage complexe.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016716
    Description :

    Le problème des données manquantes se pose dans toutes les enquêtes à grande échelle. Habituellement, on le contourne en limitant l'analyse aux cas pour lesquels les enregistrements sont complets ou en imputant, pour chaque question dont la réponse manque, une valeur estimée efficacement. Dans cet article, on examine les défauts de ces approches, particulièrement dans le contexte de l'estimation d'un grand nombre de quantités. L'article porte principalement sur deux exemples d'analyse basée sur l'imputation multiple.

    Dans le premier exemple, les données sur la situation d'emploi selon les critères de l'Organisation internationale du travail (OIT) sont imputées, dans le cas de la British Labour Force Survey, par une méthode bootstrap bayesienne. Il s'agit d'une adaptation de la méthode hot deck qui vise à exploiter pleinement les données auxiliaires. Des données auxiliaires importantes sont fournies par la situation OIT antérieure, si elle est connue, ainsi que les variables démographiques ordinaires.

    Les données manquantes peuvent être interprétées de façon plus générale, comme dans le cadre de l'algorithme EM (expectation maximization). Le deuxième exemple, tiré de la Scottish House Condition Survey, porte sur l'incohérence des enquêteurs. Ces derniers évaluent les unités de logement échantillonnées en fonction d'un grand nombre d'éléments ou de caractéristiques du logement, comme les murs internes, le toit et la plomberie, auxquels sont attribués des scores qui sont convertis de façon globale en un « coût de réparation complet ». Le degré d'incohérence est estimé d'après les discordances entre les paires d'évaluations de logements ayant fait l'objet d'une double inspection. Les questions principales ont trait à la quantité d'information perdue en raison de l'incohérence et cherchent à savoir si les estimateurs naïfs qui ne tiennent pas compte de cette incohérence sont biaisés. Le problème est résolu par l'imputation multiple qui génère des scores plausibles pour tous les logements visés par l'enquête.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 12-001-X20040016994
    Description :

    Dans une imputation où on attribue des valeurs à des réponses manquantes d'enquête par sondage, de simples méthodes d'estimation de variance des estimations d'enquête où on traite les valeurs d'imputation comme s'il s'agissait de valeurs observées donnent des estimations entachées d'un biais. Nous traiterons de ce problème dans le cas d'un estimateur linéaire où les valeurs manquantes sont attribuées par simple imputation par donneur (c'est une forme d'imputation qui est répandue dans la pratique). Nous proposerons des estimateurs de variance pour un estimateur linéaire à imputation par donneur (imputation « hot-deck ») en procédant à une décomposition de la variance totale proposée par Särndal (1992). Nous concevrons un traitement conditionnel d'estimation de variance qui est applicable à une imputation par donneur avec et sans pondération. Nous examinerons enfin l'estimation de variance pour un estimateur par domaine.

    Date de diffusion : 2004-07-14

  • Articles et rapports : 12-001-X20030026785
    Description :

    L'une des méthodes permettant d'éviter les divulgations consiste à diffuser des ensembles de microdonnées à grande diffusion partiellement synthétiques. Ces ensembles comprennent les unités enquêtés au départ, mais certaines valeurs recueillies, comme celles de nature délicate présentant un haut risque de divulgation ou celles d'identificateurs clés, sont remplacées par des imputations multiples. Bien qu'on recoure à l'heure actuelle à des approches partiellement synthétiques pour protéger les données à grande diffusion, on ne les a pas encore assorties de méthodes d'inférence valides. Le présent article décrit de telles méthodes. Elles sont fondées sur les concepts de l'imputation multiple en vue de remplacer des données manquantes, mais s'appuient sur des règles différentes pour combiner les estimations ponctuelles et les estimations de la variance. Ces règles de combinaison diffèrent aussi de celles élaborées par Raghunathan, Reiter et Rubin (2003) pour les ensembles de données entièrement synthétiques. La validité de ces nouvelles règles est illustrée au moyen d'études par simulation.

    Date de diffusion : 2004-01-27
Références (7)

Références (7) ((7 résultats))

  • Enquêtes et programmes statistiques — Documentation : 71F0031X2005002
    Description :

    Cet article est une introduction ainsi qu'une discussion sur les modifications apportées aux estimations de l'Enquête sur la population active en janvier 2005. Parmi ces modifications on retrouve notamment l'ajustement de toutes les estimations de l'EPA en fonction des chiffres de population basés sur le Recensement de 2001, des mise à jour aux systèmes de classification des industries et des occupations ainsi que des changements au remaniement de l'échantillon.

    Date de diffusion : 2005-01-26

  • Enquêtes et programmes statistiques — Documentation : 92-397-X
    Description :

    Ce rapport porte sur les concepts et définitions, sur la méthode d'imputation et sur la qualité des données de cette variable. Le recensement de 2001 a recueilli de l'information sur trois types de fonctions non rémunérées effectuées durant la semaine précédant celle du recensement : il s'agit des soins aux enfants, des travaux ménagers et des soins aux personnes âgées. Les données sur le travail non rémunéré de 2001 sont comparées à celles recueillies lors du recensement de 1996 de même qu'aux données provenant de l'enquête sociale générale (sur l'emploi du temps de 1998). Le rapport comprend également des tableaux historiques.

    Date de diffusion : 2005-01-11

  • Enquêtes et programmes statistiques — Documentation : 92-388-X
    Description :

    Ce rapport technique présente des renseignements de base sur les concepts et la qualité des données visant à faciliter l'utilisation et l'interprétation des données du recensement sur la profession. Il donne un aperçu des activités de collecte, de codage (selon la Classification nationale des professions pour statistiques de 2001), de contrôle et d'imputation des données sur la profession du recensement de 2001 ainsi qu'une description des changements apportés aux procédures du recensement de 2001 par rapport à celles des recensements précédents. Le rapport fournit également une analyse du degré de qualité des données du recensement de 2001 sur la profession et donne une description des modifications apportées à la Classification type des professions de 1991 utilisée lors des recensements de 1991 et de 1996 en vue d'établir la Classification nationale des professions pour statistiques de 2001 (CNP-S 2001), utilisée pour le recensement de 2001. Le rapport traite également de la comparabilité dans le temps des données codées selon ces deux classifications. Les annexes renferment un tableau présentant les données chronologiques des recensements de 1991, 1996 et 2001.

    Date de diffusion : 2004-07-15

  • Enquêtes et programmes statistiques — Documentation : 92-398-X
    Description :

    Ce rapport contient des renseignements de base sur les concepts et la qualité des données visant à faciliter l'utilisation et l'interprétation des données du recensement sur la catégorie de travailleurs. Il donne un aperçu du cycle de traitement des données, qui comprend notamment le dépouillement régional ainsi que le contrôle et l'imputation. Enfin, ce rapport contient des tableaux sommaires faisant état de la qualité des données du recensement de 2001 sur la catégorie de travailleurs.

    Date de diffusion : 2004-04-22

  • Enquêtes et programmes statistiques — Documentation : 85-602-X
    Description :

    L'objet du présent rapport est de faire le survol des méthodes et techniques existantes qui utilisent les identificateurs personnels en vue de réaliser le couplage des enregistrements. Ce couplage peut être décrit de façon générale comme une méthode de traitement ou de transformation des identificateurs personnels tirés des dossiers personnels enregistrés dans l'une ou plusieurs bases de données opérationnelles afin de jumeler les identificateurs et de créer un dossier composé sur un particulier. Le couplage des enregistrements ne vise pas seulement à identifier les particuliers à des fins opérationnelles, mais à établir les concordances probabilistes de degrés de fiabilité variés à des fins de rapports statistiques. Les techniques utilisées dans le cadre du couplage d'enregistrements peuvent également servir dans les enquêtes afin d'en restreindre le champ dans les bases de données, lorsque des renseignements sur les identificateurs personnels existent.

    Date de diffusion : 2000-12-05

  • Enquêtes et programmes statistiques — Documentation : 75F0002M1998012
    Description :

    Dans ce document, on étudie les activités du groupe de travail responsable de la révision des programmes statistiques sur les ménages et le revenu familial de Statistique Canada, ainsi que l'un des changements apportés aux programmes correspondants, à savoir l'intégration de deux importantes sources de données annuelles sur le revenu au Canada : l'Enquête sur les finances des consommateurs (EFC) et l'Enquête sur la dynamique du travail et du revenu (EDTR).

    Date de diffusion : 1998-12-30

  • Enquêtes et programmes statistiques — Documentation : 75F0002M1997006
    Description :

    Dans ce document, on présente la méthode de vérification et d'imputation retenue lors du traitement des données sur le revenu de la première vague de l'Enquête sur la dynamique du travail et du revenu (EDTR).

    Date de diffusion : 1997-12-31
Date de modification :