Recherche par mot-clé

Aide à l'ordre
entrées

Résultats

Tout (93)

Tout (93) (0 à 10 de 93 résultats)

  • Articles et rapports : 12-001-X202200200009
    Description :

    L’imputation multiple est une approche populaire pour traiter les données manquantes découlant de la non-réponse dans les enquêtes-échantillons. L’imputation multiple au moyen d’équations en séries (MICE) est l’un des algorithmes d’imputation multiple les plus utilisés pour les données multivariées, mais son fondement théorique est insuffisant et elle exige beaucoup de calculs. Récemment, des méthodes d’imputation des données manquantes fondées sur des modèles d’apprentissage profond ont été élaborées, ce qui a donné des résultats encourageants dans de petites études. Cependant, peu de recherches ont été menées sur l’évaluation de leur rendement dans des contextes réalistes par rapport à la MICE, en particulier dans le cadre de grandes enquêtes. Nous menons de vastes études de simulation fondées sur un sous-échantillon de l’American Community Survey afin de comparer les propriétés d’échantillonnage répété de quatre méthodes d’apprentissage automatique fondées sur l’imputation multiple : MICE avec arbres de classification; MICE avec forêts aléatoires; réseaux antagonistes génératifs pour l’imputation; et imputation multiple à l’aide d’autoencodeurs débruiteurs. Nous constatons que les méthodes d’imputation fondées sur des modèles d’apprentissage profond sont plus efficaces que la MICE en ce qui a trait au temps de calcul. Cependant, étant donné le choix par défaut des hyperparamètres dans les progiciels communs, la MICE avec arbres de classification dépasse constamment, souvent de loin, les méthodes d’imputation fondées sur l’apprentissage profond quant au biais, à l’erreur quadratique moyenne et à la couverture dans une gamme de paramètres réalistes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200100008
    Description :

    La méthode d’imputation multiple à classes latentes (IMCL) allie l’imputation multiple à l’analyse de classe latente afin de corriger une classification erronée dans des ensembles de données combinés. De plus, l’IMCL permet de générer un ensemble de données multi-imputé qu’il est possible d’utiliser pour l’estimation directe de différentes statistiques, faisant en sorte que l’incertitude due à une classification erronée soit intégrée au moment d’estimer la variance totale. Dans la présente étude, les auteurs ont examiné la façon dont il est possible d’ajuster la méthode d’IMCL pour l’utiliser à des fins de recensement. Ils ont plus précisément étudié le mode de prise en charge, par la méthode d’IMCL, d’un registre de population fini et complet, la façon dont la méthode permet de corriger simultanément une classification erronée de multiples variables latentes et la façon dont elle permet d’intégrer plusieurs restrictions de vérification. Une étude par simulations montre que la méthode d’IMCL peut habituellement reproduire des fréquences par cellule dans des tableaux à basse et à haute dimensionnalité, comportant de faibles quantités de biais. Il est en outre possible d’estimer adéquatement la variance, même si elle est surestimée lorsque les fréquences par cellule sont moindres.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X202100100004
    Description :

    À l’ère des mégadonnées, on dispose d’un nombre croissant de sources de données pour les analyses statistiques. Comme exemple important d’inférence de population finie, nous examinons une approche d’imputation pour la combinaison de données tirées d’une enquête probabiliste et de mégadonnées. Nous nous concentrons sur une situation où la variable à l’étude est observée dans les mégadonnées seulement, mais les autres variables auxiliaires sont couramment observées dans les deux sources de données. Contrairement à l’imputation habituellement utilisée pour l’analyse des données manquantes, nous créons des valeurs imputées pour toutes les unités de l’échantillon probabiliste. Une imputation massive de ce type est intéressante dans le contexte de l’intégration des données d’enquête (Kim et Rao, 2012). Nous étendons l’imputation massive comme outil d’intégration des données d’enquête et des mégadonnées ne provenant pas d’enquêtes. Nous présentons les méthodes d’imputation massive et leurs propriétés statistiques. De plus, l’estimateur d’appariement de Rivers (2007) est traité comme cas particulier. L’estimation de la variance au moyen de données obtenues par imputation massive est abordée. Les résultats de la simulation montrent que les estimateurs proposés donnent de meilleurs résultats que les estimateurs concurrents en matière de robustesse et d’efficacité.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X202100100009
    Description :

    L’imputation par appariement selon la moyenne prédictive est couramment utilisée pour régler les cas de non-réponse dans le cadre d’enquêtes. L’approche habituelle consiste à spécifier un modèle de régression unique. Dans la présente note, nous proposons une nouvelle procédure par appariement selon la moyenne prédictive permettant à l’utilisateur de spécifier plusieurs modèles de régression. L’estimateur obtenu est multirobuste en ce sens qu’il demeure convergent si l’un des modèles de régression spécifié est défini correctement. Les résultats d’une étude de simulation indiquent que la méthode proposée fonctionne bien en termes de biais et d’efficacité.

    Date de diffusion : 2021-06-24

  • 19-22-0004
    Description : L'un des principaux objectifs de la statistique consiste à présenter des données sous forme de renseignements faciles à résumer et à comprendre. L'utilisation d'outils de visualisation des données, comme les graphiques et les tableaux, est un moyen efficace d'atteindre cet objectif. Cette séance d'information vise à montrer des exemples de graphiques et de tableaux courants, à fournir des conseils pratiques pour aider les participants à choisir l'affichage approprié pour leurs données, et à déterminer ce qu'il faut éviter et pour quelle raison. De manière générale, l'objet est de renforcer la capacité statistique et d'améliorer la compréhension des techniques fondamentales qui favorisent la diffusion précise et efficace des statistiques et des résultats de recherche.

    https://www.statcan.gc.ca/fr/afc/information/19220004
    Date de diffusion : 2020-10-30

  • Articles et rapports : 12-001-X202000100006
    Description :

    Dans les enquêtes, les bornes logiques entre variables ou entre vagues d’enquêtes compliquent l’imputation des valeurs manquantes. Nous proposons une nouvelle méthode d’imputation multiple par la régression pour traiter les non-réponses d’enquête avec bornes logiques bilatérales. La méthode d’imputation proposée satisfait automatiquement aux conditions de bornes sans procédure supplémentaire d’acceptation ou de rejet et utilise l’information sur les bornes pour dériver une valeur imputée et déterminer la pertinence de la valeur imputée. Les résultats de la simulation montrent que notre nouvelle méthode d’imputation surpasse les méthodes d’imputation actuelles pour les estimations de la moyenne et des quantiles, quels que soient les taux de valeurs manquantes, les distributions d’erreurs et les mécanismes de valeurs manquantes. Nous appliquons notre méthode pour imputer la variable du « nombre d’années de tabagisme » autodéclaré dans les dépistages médicaux successifs de la population coréenne.

    Date de diffusion : 2020-06-30

  • Articles et rapports : 12-001-X201900200001
    Description :

    L’élaboration de procédures d’imputation appropriées pour les données ayant des valeurs extrêmes ou des relations non linéaires avec des covariables constitue un défi important dans les enquêtes à grande échelle. Nous élaborons une procédure d’imputation pour les enquêtes complexes fondée sur la régression quantile semi-paramétrique. Nous appliquons cette méthode au Conservation Effects Assessment Project (CEAP), une enquête à grande échelle qui recueille des données utilisées pour quantifier la perte de sol provenant des champs de culture. Dans la procédure d’imputation, nous générons d’abord des valeurs imputées à partir d’un modèle semi-paramétrique pour les quantiles de la distribution conditionnelle de la réponse pour une covariable donnée. Ensuite, nous évaluons les paramètres d’intérêt à l’aide de la méthode généralisée des moments (MGM). Nous dérivons la distribution asymptotique des estimateurs MGM pour une classe générale de plans d’enquête complexes. Dans les simulations destinées à représenter les données du CEAP, nous évaluons les estimateurs de variance en fonction de la distribution asymptotique et comparons la méthode d’imputation par régression quantile (IRQ) semi-paramétrique à des solutions de rechange entièrement paramétriques et non paramétriques. La procédure de l’IRQ est plus efficace que les solutions de rechange non paramétriques et entièrement paramétriques, et les couvertures empiriques des intervalles de confiance se situent à moins de 1 % du niveau nominal de 95 %. Une application à l’estimation de l’érosion moyenne indique que l’IRQ pourrait être une option viable pour le CEAP.

    Date de diffusion : 2019-06-27

  • Articles et rapports : 12-001-X201900100009
    Description :

    La demande d’estimations sur petits domaines de la part des utilisateurs des données de Statistique Canada augmente constamment depuis quelques années. Dans le présent document, nous résumons les procédures qui ont été intégrées dans un système de production en SAS permettant d’obtenir des estimations sur petits domaines officielles à Statistique Canada. Ce système comprend : des procédures fondées sur des modèles au niveau de l’unité ou du domaine; l’intégration du plan d’échantillonnage; la capacité de lisser la variance sous le plan pour chaque petit domaine si un modèle au niveau du domaine est utilisé; la capacité de vérifier que les estimations sur petits domaines équivalent à des estimations fiables de niveau plus élevé; et l’élaboration d’outils de diagnostic pour tester la pertinence du modèle. Le système de production a servi à produire des estimations sur petits domaines à titre expérimental pour plusieurs enquêtes de Statistique Canada, notamment : l’estimation des caractéristiques de la santé, l’estimation du sous-dénombrement au recensement, l’estimation des ventes des fabricants et l’estimation des taux de chômage et des chiffres d’emploi pour l’Enquête sur la population active. Certains des diagnostics instaurés dans le système sont illustrés à l’aide des données de l’Enquête sur la population active ainsi que des données administratives auxiliaires.

    Date de diffusion : 2019-05-07

  • Articles et rapports : 12-001-X201700114823
    Description :

    L’obtention d’estimateurs dans un processus de calage à plusieurs phases requiert le calcul séquentiel des estimateurs et des poids calés des phases antérieures afin d’obtenir ceux de phases ultérieures. Déjà après deux phases de calage, les estimateurs et leurs variances comprennent des facteurs de calage provenant des deux phases, et les formules deviennent lourdes et non informatives. Par conséquent, les études publiées jusqu’à présent traitent principalement du calage à deux phases, tandis que le calage à trois phases ou plus est rarement envisagé. Dans certains cas, l’analyse s’applique à un plan de sondage particulier et aucune méthodologie complète n’est élaborée pour la construction d’estimateurs calés ni, tâche plus difficile, pour l’estimation de leur variance en trois phases ou plus. Nous fournissons une expression explicite pour calculer la variance d’estimateurs calés en plusieurs phases qui tient pour n’importe quel nombre de phases. En spécifiant une nouvelle représentation des poids calés en plusieurs phases, il est possible de construire des estimateurs calés qui ont la forme d’estimateurs par la régression multivariée, ce qui permet de calculer un estimateur convergent de leur variance. Ce nouvel estimateur de variance est non seulement général pour tout nombre de phases, mais possède aussi certaines caractéristiques favorables. Nous présentons une comparaison à d’autres estimateurs dans le cas particulier du calage à deux phases, ainsi qu’une étude indépendante pour le cas à trois phases.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 11-633-X2017006
    Description :

    Ce document décrit une méthode d’imputation des codes postaux manquants dans une base de données longitudinale. La base de données Cohorte santé et environnement du Recensement du Canada (CSERCan) de 1991, qui contient des renseignements sur les répondants au questionnaire détaillé du Recensement de 1991, couplée avec les fichiers des déclarations de revenus T1 pour la période allant de 1984 à 2011, est utilisée pour illustrer et valider la méthode. La cohorte contient jusqu’à 28 champs consécutifs de codes postaux de résidences, mais en raison des vides fréquents dans l’historique des codes postaux, les codes postaux manquants doivent être imputés. Pour valider la méthode d’imputation, deux expériences ont été mises au point dans lesquelles 5 % et 10 % de tous les codes postaux issus d’un sous-ensemble comportant des historiques complets ont été effacés de façon aléatoire et imputés.

    Date de diffusion : 2017-03-13
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (85)

Analyses (85) (10 à 20 de 85 résultats)

  • Articles et rapports : 12-001-X201600214676
    Description :

    Les procédures de winsorisation permettent de remplacer les valeurs extrêmes par des valeurs moins extrêmes, déplaçant en fait les valeurs extrêmes originales vers le centre de la distribution. La winsorisation sert donc à détecter ainsi qu’à traiter les valeurs influentes. Mulry, Oliver et Kaputa (2014) comparent la performance de la méthode de winsorisation unilatérale élaborée par Clark (1995) et décrite par Chambers, Kokic, Smith et Cruddas (2000) avec celle d' estimation M (Beaumont et Alavi 2004) dans le cas de données sur une population d’entreprises fortement asymétrique. Un aspect particulièrement intéressant des méthodes qui servent à détecter et à traiter des valeurs influentes est la plage de valeurs définies comme étant influentes, que l’on appelle « zone de détection ». L’algorithme de winsorisation de Clark est facile à mettre en œuvre et peut s’avérer très efficace. Cependant, la zone de détection qui en résulte dépend considérablement du nombre de valeurs influentes dans l’échantillon, surtout quand on s’attend à ce que les totaux d’enquête varient fortement selon la période de collecte. Dans la présente note, nous examinons l’effet du nombre de valeurs influentes et de leur taille sur les zones de détection produites par la winsorisation de Clark en utilisant des données simulées de manière à représenter raisonnablement les propriétés de la population visée par la Monthly Retail Trade Survey (MRTS) du U.S. Census Bureau. Les estimations provenant de la MRTS et d’autres enquêtes économiques sont utilisées dans le calcul d’indicateurs économiques, comme le produit intérieur brut (PIB).

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600114538
    Description :

    La vérification automatique consiste en l’utilisation d’un ordinateur pour déceler et corriger sans intervention humaine les valeurs erronées dans un ensemble de données. La plupart des méthodes de vérification automatique actuellement employées aux fins de la statistique officielle sont fondées sur les travaux fondamentaux de Fellegi et Holt (1976). La mise en application de cette méthode dans la pratique révèle des différences systématiques entre les données vérifiées manuellement et celles qui sont vérifiées de façon automatisée, car l’humain est en mesure d’effectuer des opérations de vérification complexes. L’auteur du présent article propose une généralisation du paradigme de Fellegi-Holt qui permet d’intégrer de façon naturelle une grande catégorie d’opérations de vérification. Il présente aussi un algorithme qui résout le problème généralisé de localisation des erreurs qui en découle. Il est à espérer que cette généralisation puisse améliorer la pertinence des vérifications automatiques dans la pratique et ainsi accroître l’efficience des processus de vérification des données. Certains des premiers résultats obtenus à l’aide de données synthétiques sont prometteurs à cet égard.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 11-522-X201700014715
    Description :

    En vue du Recensement de 2021 au Royaume-Uni, l'Office for National Statistics (ONS) s’est engagée à mener un programme de recherche exhaustif, afin d’explorer comment les données administratives couplées peuvent servir à appuyer les processus statistiques conventionnels. Le contrôle et l’imputation (C et I) au niveau de la question joueront un rôle important pour l’ajustement de la base de données du Recensement de 2021. Toutefois, l’incertitude associée à l’exactitude et à la qualité des données administratives disponibles jette des doutes sur l’efficacité d’une approche intégrée fondée sur des données du recensement et des données administratives en ce qui a trait au C et I. Les contraintes actuelles, qui dictent une approche anonymisée de la « clef » pour le couplage des enregistrements, afin d’assurer la confidentialité, accentuent cette incertitude. Nous fournissons les résultats préliminaires d’une étude de simulation comparant l’exactitude prédictive et l’exactitude de la distribution de la stratégie conventionnelle de C et I mise en œuvre au moyen du SCANCIR pour le Recensement de 2011 au Royaume-Uni, à celles d’une approche intégrée reposant sur des données administratives synthétiques, comme données auxiliaires, avec une erreur qui augmente de façon systématique. À cette étape initiale de la recherche, nous mettons l’accent sur l’imputation d’une année d’âge. L’objectif de l’étude est de déterminer si les données auxiliaires découlant des données administratives peuvent améliorer les estimations de l’imputation, et où se situent les différentes stratégies dans un continuum d’exactitude.

    Date de diffusion : 2016-03-24

  • Articles et rapports : 12-001-X201500114193
    Description :

    Les microdonnées imputées contiennent fréquemment des renseignements contradictoires. La situation peut découler, par exemple, d’une imputation partielle faisant qu’une partie de l’enregistrement imputé est constituée des valeurs observées de l’enregistrement original et l’autre, des valeurs imputées. Les règles de vérification qui portent sur des variables provenant des deux parties de l’enregistrement sont alors souvent enfreintes. L’incohérence peut aussi résulter d’un ajustement pour corriger des erreurs dans les données observées, aussi appelé imputation dans la vérification (imputation in editing). Sous l’hypothèse que l’incohérence persistante n’est pas due à des erreurs systématiques, nous proposons d’apporter des ajustements aux microdonnées de manière que toutes les contraintes soient satisfaites simultanément et que les ajustements soient minimaux selon une mesure de distance choisie. Nous examinons différentes approches de la mesure de distance, ainsi que plusieurs extensions de la situation de base, dont le traitement des données catégoriques, l’imputation totale et l’étalonnage à un macroniveau. Nous illustrons les propriétés et les interprétations des méthodes proposées au moyen de données économiques des entreprises.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201400214089
    Description :

    Le présent document décrit l’utilisation de l’imputation multiple pour combiner l’information de plusieurs enquêtes de la même population sous-jacente. Nous utilisons une nouvelle méthode pour générer des populations synthétiques de façon non paramétrique à partir d’un bootstrap bayésien fondé sur une population finie qui tient systématiquement compte des plans d’échantillonnage complexes. Nous analysons ensuite chaque population synthétique au moyen d’un logiciel standard de données complètes pour les échantillons aléatoires simples et obtenons une inférence valide en combinant les estimations ponctuelles et de variance au moyen des extensions de règles de combinaison existantes pour les données synthétiques. Nous illustrons l’approche en combinant les données de la National Health Interview Survey (NHIS) de 2006 et de la Medical Expenditure Panel Survey (MEPS) de 2006.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 12-001-X201400214091
    Description :

    L’imputation fractionnaire paramétrique (IFP) proposée par Kim (2011) est un outil d’estimation des paramètres à usage général en cas de données manquantes. Nous proposons une imputation fractionnaire hot deck (IFHD), qui est plus robuste que l’IFP ou l’imputation multiple. Selon la méthode proposée, les valeurs imputées sont choisies parmi l’ensemble des répondants, et des pondérations fractionnaires appropriées leur sont assignées. Les pondérations sont ensuite ajustées pour répondre à certaines conditions de calage, ce qui garantit l’efficacité de l’estimateur IFHD résultant. Deux études de simulation sont présentées afin de comparer la méthode proposée aux méthodes existantes.

    Date de diffusion : 2014-12-19

  • Articles et rapports : 11-522-X201300014275
    Description :

    Depuis juillet 2014, l’Office for National Statistics a pris l’engagement de tenir le Recensement de 2021 au Royaume-Uni essentiellement en ligne. L’imputation au niveau de la question jouera un rôle important dans l’ajustement de la base de données du Recensement de 2021. Les recherches montrent qu’Internet pourrait produire des données plus précises que la saisie sur papier et attirer des personnes affichant des caractéristiques particulières. Nous présentons ici les résultats préliminaires des recherches destinées à comprendre comment nous pourrions gérer ces caractéristiques dans une stratégie d’imputation pour le Recensement du Royaume-Uni de 2021. Selon nos constatations, l’utilisation d’une méthode d’imputation fondée sur des donneurs pourrait nécessiter d’envisager l’inclusion du mode de réponse comme variable d’appariement dans le modèle d’imputation sous-jacent.

    Date de diffusion : 2014-10-31

  • Articles et rapports : 11-522-X201300014281
    Description :

    Les enquêtes en ligne excluent l’entièreté de la population sans accès à Internet et ont souvent de faibles taux de réponse. Par conséquent, l’inférence statistique fondée sur des échantillons d’enquêtes en ligne requiert que soit disponible de l’information supplémentaire sur la population non couverte, que les méthodes d’enquête soient choisies avec précaution afin de tenir compte des biais possibles, et que l’interprétation et la généralisation des résultats à une population cible se fassent prudemment. Dans le présent article, nous nous concentrons sur le biais de non-couverture, et explorons l’utilisation d’estimateurs pondérés et d’estimateurs par imputation hot-deck pour corriger le biais sous le scénario idéal où l’information sur les covariables a été obtenue pour un échantillon aléatoire simple de personnes faisant partie de la population non couverte. Nous illustrons empiriquement les propriétés des estimateurs proposés sous ce scénario. Nous discutons d’extensions possibles de ces approches à des scénarios plus réalistes.

    Date de diffusion : 2014-10-31

  • Articles et rapports : 11-522-X201300014291
    Description :

    En Allemagne, le codage des professions est effectué principalement en utilisant des dictionnaires suivies d'une révision manuelle des cas qui n'ont pas pu être codés. Puisque le codage manuel est coûteux, il est souhaitable de coder le plus de cas possible automatiquement. Parallèlement, le codage automatique doit atteindre au moins le même niveau de qualité que le codage manuel. À titre de solution possible, nous employons divers algorthmes d'apprentissage automatique pour effectuer la tâche en utilisant une quantité importante de professions codées manuellement dans le cadre d'études récentes comme données d'apprentissage. Nous déterminons la faisabilité de ces méthodes en évaluant la performance et la qualité des algorithmes.

    Date de diffusion : 2014-10-31

  • Articles et rapports : 12-001-X201400114001
    Description :

    Le présent article traite de l’effet de différentes méthodes d’échantillonnage sur la qualité de l’échantillon réalisé. On s’attendait à ce que cet effet dépende de la mesure dans laquelle les intervieweurs ont la liberté d’interviewer des personnes avec lesquelles il leur est facile de prendre contact ou dont il leur est facile d’obtenir la coopération (donc d’effectuer des substitutions). L’analyse a été menée dans un contexte transculturel en utilisant des données provenant des quatre premières vagues de l’Enquête sociale européenne (ESS, pour European Social Survey). Les substitutions sont mesurées par les écarts par rapport au ratio hommes-femmes de 50/50 dans des sous-échantillons constitués de couples hétérosexuels. Des écarts importants ont été observés dans de nombreux pays qui participent à l’ESS. Ces écarts se sont également avérés les plus faibles lorsque des registres officiels de résidents avaient servi de base de sondage pour le tirage des échantillons (échantillonnage à partir de registres de personnes) dans le cas où l’un des conjoints était plus difficile à joindre que l’autre. Cette portée des substitutions ne variait pas d’une vague à l’autre de l’ESS et était faiblement corrélée au mode de rémunération et aux procédures de contrôle des intervieweurs. Les résultats permettent de conclure que les échantillons tirés de registres de personnes sont de plus haute qualité.

    Date de diffusion : 2014-06-27
Références (7)

Références (7) ((7 résultats))

  • Enquêtes et programmes statistiques — Documentation : 71F0031X2005002
    Description :

    Cet article est une introduction ainsi qu'une discussion sur les modifications apportées aux estimations de l'Enquête sur la population active en janvier 2005. Parmi ces modifications on retrouve notamment l'ajustement de toutes les estimations de l'EPA en fonction des chiffres de population basés sur le Recensement de 2001, des mise à jour aux systèmes de classification des industries et des occupations ainsi que des changements au remaniement de l'échantillon.

    Date de diffusion : 2005-01-26

  • Enquêtes et programmes statistiques — Documentation : 92-397-X
    Description :

    Ce rapport porte sur les concepts et définitions, sur la méthode d'imputation et sur la qualité des données de cette variable. Le recensement de 2001 a recueilli de l'information sur trois types de fonctions non rémunérées effectuées durant la semaine précédant celle du recensement : il s'agit des soins aux enfants, des travaux ménagers et des soins aux personnes âgées. Les données sur le travail non rémunéré de 2001 sont comparées à celles recueillies lors du recensement de 1996 de même qu'aux données provenant de l'enquête sociale générale (sur l'emploi du temps de 1998). Le rapport comprend également des tableaux historiques.

    Date de diffusion : 2005-01-11

  • Enquêtes et programmes statistiques — Documentation : 92-388-X
    Description :

    Ce rapport technique présente des renseignements de base sur les concepts et la qualité des données visant à faciliter l'utilisation et l'interprétation des données du recensement sur la profession. Il donne un aperçu des activités de collecte, de codage (selon la Classification nationale des professions pour statistiques de 2001), de contrôle et d'imputation des données sur la profession du recensement de 2001 ainsi qu'une description des changements apportés aux procédures du recensement de 2001 par rapport à celles des recensements précédents. Le rapport fournit également une analyse du degré de qualité des données du recensement de 2001 sur la profession et donne une description des modifications apportées à la Classification type des professions de 1991 utilisée lors des recensements de 1991 et de 1996 en vue d'établir la Classification nationale des professions pour statistiques de 2001 (CNP-S 2001), utilisée pour le recensement de 2001. Le rapport traite également de la comparabilité dans le temps des données codées selon ces deux classifications. Les annexes renferment un tableau présentant les données chronologiques des recensements de 1991, 1996 et 2001.

    Date de diffusion : 2004-07-15

  • Enquêtes et programmes statistiques — Documentation : 92-398-X
    Description :

    Ce rapport contient des renseignements de base sur les concepts et la qualité des données visant à faciliter l'utilisation et l'interprétation des données du recensement sur la catégorie de travailleurs. Il donne un aperçu du cycle de traitement des données, qui comprend notamment le dépouillement régional ainsi que le contrôle et l'imputation. Enfin, ce rapport contient des tableaux sommaires faisant état de la qualité des données du recensement de 2001 sur la catégorie de travailleurs.

    Date de diffusion : 2004-04-22

  • Enquêtes et programmes statistiques — Documentation : 85-602-X
    Description :

    L'objet du présent rapport est de faire le survol des méthodes et techniques existantes qui utilisent les identificateurs personnels en vue de réaliser le couplage des enregistrements. Ce couplage peut être décrit de façon générale comme une méthode de traitement ou de transformation des identificateurs personnels tirés des dossiers personnels enregistrés dans l'une ou plusieurs bases de données opérationnelles afin de jumeler les identificateurs et de créer un dossier composé sur un particulier. Le couplage des enregistrements ne vise pas seulement à identifier les particuliers à des fins opérationnelles, mais à établir les concordances probabilistes de degrés de fiabilité variés à des fins de rapports statistiques. Les techniques utilisées dans le cadre du couplage d'enregistrements peuvent également servir dans les enquêtes afin d'en restreindre le champ dans les bases de données, lorsque des renseignements sur les identificateurs personnels existent.

    Date de diffusion : 2000-12-05

  • Enquêtes et programmes statistiques — Documentation : 75F0002M1998012
    Description :

    Dans ce document, on étudie les activités du groupe de travail responsable de la révision des programmes statistiques sur les ménages et le revenu familial de Statistique Canada, ainsi que l'un des changements apportés aux programmes correspondants, à savoir l'intégration de deux importantes sources de données annuelles sur le revenu au Canada : l'Enquête sur les finances des consommateurs (EFC) et l'Enquête sur la dynamique du travail et du revenu (EDTR).

    Date de diffusion : 1998-12-30

  • Enquêtes et programmes statistiques — Documentation : 75F0002M1997006
    Description :

    Dans ce document, on présente la méthode de vérification et d'imputation retenue lors du traitement des données sur le revenu de la première vague de l'Enquête sur la dynamique du travail et du revenu (EDTR).

    Date de diffusion : 1997-12-31
Date de modification :