Recherche par mot-clé

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Géographie

2 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (81)

Tout (81) (0 à 10 de 81 résultats)

  • Revues et périodiques : 12-206-X
    Description : Le présent rapport fait la synthèse des réalisations annuelles du Programme de recherche et développement en méthodologie (PRDM) de la Direction des méthodes statistiques modernes et de la science des données de Statistique Canada. Ce programme comprend les activités de recherche et développement en méthodes statistiques susceptibles d’être appliquées à grande échelle aux programmes statistiques de l’organisme; ce sont des activités qui, autrement, ne s’exerceraient pas complètement dans le cadre des services réguliers de méthodologie offerts à ces programmes. Ajoutons que, dans le but de promouvoir l’utilisation des résultats des travaux de recherche et de développement, le PRDM comporte des activités de soutien pour la mise en application de travaux de développement antérieurs fructueux. Certaines activités de recherche exploratoire sont également rapportées.
    Date de diffusion : 2023-10-11

  • Articles et rapports : 11-522-X202100100001
    Description :

    Nous envisageons ici l’analyse de régression dans le contexte de l’intégration de données. Pour combiner des renseignements partiels de sources externes, nous utilisons l’idée de calage de modèle qui introduit un modèle « de travail » réduit fondé sur les covariables observées. Ce modèle de travail réduit n’est pas nécessairement spécifié correctement, mais il peut être un outil utile pour intégrer les renseignements partiels provenant de données externes. La mise en œuvre en tant que telle se fonde sur une application nouvelle de la méthode de vraisemblance empirique. La méthode proposée est particulièrement attractive pour combiner des renseignements de plusieurs sources présentant différentes tendances d’information manquante. La méthode est appliquée à un exemple de données réelles combinant les données d’enquête de la Korean National Health and Nutrition Examination Survey (KNHANES, Enquête nationale coréenne sur la santé et la nutrition) et les mégadonnées du National Health Insurance Sharing Service (NHISS, Service national coréen de partage de l’assurance maladie).

    Mots clés : mégadonnées; probabilité empirique; modèles d’erreur de mesure; covariables manquantes.

    Date de diffusion : 2021-10-15

  • Tableau : 98-508-X
    Description :

    Le Supplément des erreurs-types dans le Profil du recensement comprend l’erreur-type pour chaque estimation tirée du questionnaire détaillé, de même que les données normalisées du Profil du recensement pour une ADA donnée, sa division de recensement (DR) correspondante et sa province ou son territoire, de même que le Canada. Il peut être téléchargé au complet ou pour une région donnée dans une multitude de formats courants, notamment CSV, TAB et IVT. Du contenu supplémentaire sera ajouté à ce produit lors de sa mise à jour qui sera diffusée le 29 novembre 2017.

    Date de diffusion : 2018-01-19

  • Articles et rapports : 12-001-X201600114538
    Description :

    La vérification automatique consiste en l’utilisation d’un ordinateur pour déceler et corriger sans intervention humaine les valeurs erronées dans un ensemble de données. La plupart des méthodes de vérification automatique actuellement employées aux fins de la statistique officielle sont fondées sur les travaux fondamentaux de Fellegi et Holt (1976). La mise en application de cette méthode dans la pratique révèle des différences systématiques entre les données vérifiées manuellement et celles qui sont vérifiées de façon automatisée, car l’humain est en mesure d’effectuer des opérations de vérification complexes. L’auteur du présent article propose une généralisation du paradigme de Fellegi-Holt qui permet d’intégrer de façon naturelle une grande catégorie d’opérations de vérification. Il présente aussi un algorithme qui résout le problème généralisé de localisation des erreurs qui en découle. Il est à espérer que cette généralisation puisse améliorer la pertinence des vérifications automatiques dans la pratique et ainsi accroître l’efficience des processus de vérification des données. Certains des premiers résultats obtenus à l’aide de données synthétiques sont prometteurs à cet égard.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201600114539
    Description :

    L’appariement statistique est une technique permettant d’intégrer deux ou plusieurs ensembles de données lorsque les renseignements nécessaires pour apparier les enregistrements des participants individuels dans les ensembles de données sont incomplets. On peut considérer l’appariement statistique comme un problème de données manquantes en vertu duquel on souhaite effectuer une analyse conjointe de variables qui ne sont jamais observées ensemble. On utilise souvent une hypothèse d’indépendance conditionnelle pour créer des données imputées aux fins d’appariement statistique. Nous examinons une approche générale de l’appariement statistique faisant appel à l’imputation fractionnaire paramétrique de Kim (2011) pour créer des données imputées en vertu de l’hypothèse que le modèle spécifié est entièrement identifié. La méthode proposée ne produit pas une séquence EM convergente si le modèle n’est pas identifié. Nous présentons aussi des estimateurs de variance convenant à la procédure d’imputation. Nous expliquons comment la méthode s’applique directement à l’analyse des données obtenues à partir de plans de sondage à questionnaire scindé et aux modèles d’erreur de mesure.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201500214230
    Description :

    Le présent article décrit l’élaboration de méthodes de répartition pour des enquêtes par sondage avec stratification quand l’utilisation d’estimateurs sur petits domaines composites est une priorité et que les domaines servent de strates. Longford (2006) a proposé pour cette situation un critère objectif fondé sur une combinaison pondérée des erreurs quadratiques moyennes des moyennes de petit domaine et d’une moyenne globale. Ici, nous redéfinissons cette approche dans un cadre assisté par modèle, ce qui permet l’utilisation de variables explicatives et une interprétation plus naturelle des résultats en utilisant un paramètre de corrélation intraclasse. Nous considérons aussi plusieurs utilisations de la répartition exponentielle et permettons l’application d’autres contraintes, telle une valeur maximale de la racine carrée relative de l’erreur quadratique moyenne, aux estimateurs de strate. Nous constatons qu’une répartition exponentielle simple peut donner des résultats très près d’être aussi bons que le plan optimal, même quand l’objectif est de minimiser le critère de Longford (2006).

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201500114151
    Description :

    L’une des principales variables de l’Enquête sur la population active des Pays-Bas est celle indiquant si un enquêté possède un emploi permanent ou temporaire. Le but de notre étude est de déterminer l’erreur de mesure de cette variable en appariant l’information tirée de la partie longitudinale de cette enquête à des données de registre uniques provenant de l’organisme de gestion des assurances sociales pour salariés des Pays-Bas (UVW). Contrairement aux approches antérieures visant à comparer des ensembles de données de ce genre, nous tenons compte du fait que les données de registre contiennent aussi des erreurs et que l’erreur de mesure qu’elles présentent est vraisemblablement corrélée dans le temps. Plus précisément, nous proposons d’estimer l’erreur de mesure dans ces deux sources en utilisant un modèle de Markov caché étendu au moyen de deux indicateurs observés du type de contrat d’emploi. Selon nos résultats, aucune des deux sources ne doit être considérée comme étant exempte d’erreur. Pour les deux indicateurs, nous constatons que les travailleurs titulaires d’un contrat d’emploi temporaire sont souvent classés incorrectement comme ayant un contrat d’emploi permanent. En particulier, dans le cas des données de registre, nous observons que les erreurs de mesure sont fortement autocorrélées, car les erreurs commises à une période ont tendance à se répéter. En revanche, lorsque l’enregistrement est correct, la probabilité qu’une erreur soit commise à la période suivante est presque nulle. Enfin, nous constatons que les contrats d’emploi temporaire sont plus répandus que ne le laisse supposer l’Enquête sur la population active, tandis que les taux de transition entre les contrats d’emploi temporaire et permanent sont nettement moins élevés que ne le suggèrent les deux ensembles de données.

    Date de diffusion : 2015-06-29

  • Avis et consultations : 12-002-X
    Description :

    Le Bulletin technique et d'information (BTI) des Centres de données de recherche (CDR) est un forum où les analystes de Statistique Canada et les personnes travaillant dans le milieu de la recherche peuvent communiquer entre eux au sujet de l'utilisation des données d'enquête et des techniques méthodologiques. Les articles du BTI seront axés sur l'analyse et la modélisation de données, la gestion des données ainsi que les pratiques exemplaires ou inefficaces sur le plan statistique, informatique et scientifique. De plus, les thèmes du BTI comprendront des articles portant sur le contenu des données, les répercussions de la formulation des questionnaires, la comparaison d'ensembles de données, les études traitant des méthodologies et de leur application, les particularités des données, les données problématiques et les solutions proposées et enfin la présentation d'outils novateurs utilisant les données des CDR et des logiciels appropriés. Tous ces articles permettront d'offrir des conseils et des exemples détaillés de commandes, d'habitudes, d'astuces et de stratégies pouvant aider les utilisateurs des CDR à résoudre des problèmes.

    Les principaux objectifs du BTI sont les suivants :

    - l'avancement et la diffusion des connaissances relatives aux données de Statistique Canada;- l'échange d'idées entre les utilisateurs des CDR;- l'aide aux nouveaux utilisateurs;- la collaboration avec les spécialistes et les divisions spécialisées de Statistique Canada.

    Le BTI vise la publication d'articles de qualité, dignes d'être diffusés dans le milieu de la recherche et susceptibles d'accroître la qualité des travaux effectués dans les CDR de Statistique Canada.

    Date de diffusion : 2015-03-25

  • Articles et rapports : 12-001-X201200211751
    Description :

    La qualité des enquêtes est un concept multidimensionnel issu de deux démarches de développement distinctes. La première démarche suit le paradigme de l'erreur d'enquête totale, qui repose sur quatre piliers dont émanent les principes qui guident la conception de l'enquête, sa mise en oeuvre, son évaluation et l'analyse des données. Nous devons concevoir les enquêtes de façon que l'erreur quadratique moyenne d'une estimation soit minimisée compte tenu du budget et d'autres contraintes. Il est important de tenir compte de toutes les sources connues d'erreur, de surveiller les principales d'entre elles durant la mise en oeuvre, d'évaluer périodiquement les principales sources d'erreur et les combinaisons de ces sources après l'achèvement de l'enquête, et d'étudier les effets des erreurs sur l'analyse des données. Dans ce contexte, on peut mesurer la qualité d'une enquête par l'erreur quadratique moyenne, la contrôler par des observations faites durant la mise en oeuvre et l'améliorer par des études d'évaluation. Le paradigme possède des points forts et des points faibles. L'un des points forts tient au fait que la recherche peut être définie en fonction des sources d'erreur et l'un des points faibles, au fait que la plupart des évaluations de l'erreur d'enquête totale sont incomplètes, en ce sens qu'il est impossible d'inclure les effets de toutes les sources. La deuxième démarche est influencée par des idées empruntées aux sciences de la gestion de la qualité. Ces sciences ont pour objet de permettre aux entreprises d'exceller dans la fourniture de produits et de services en se concentrant sur leurs clients et sur la concurrence. Ces idées ont eu une très grande influence sur de nombreux organismes statistiques. Elles ont notamment amené les fournisseurs de données à reconnaître qu'un produit de qualité ne peut pas être obtenu si la qualité des processus sous-jacents n'est pas suffisante et que des processus de qualité suffisante ne peuvent pas être obtenus sans une bonne qualité organisationnelle. Ces divers niveaux peuvent être contrôlés et évalués au moyen d'ententes sur le niveau de service, de sondages auprès des clients, d'analyses des paradonnées en recourant au contrôle statistique des processus et d'évaluations organisationnelles en se servant de modèles d'excellence opérationnelle ou d'autres ensembles de critères. À tous les niveaux, on peut rehausser la qualité en lançant des projets d'amélioration choisis selon des fonctions de priorité. L'objectif ultime de ces projets d'amélioration est que les processus concernés s'approchent progressivement d'un état où ils sont exempts d'erreur. Naturellement, il pourrait s'agir d'un objectif impossible à atteindre, mais auquel il faut tenter de parvenir. Il n'est pas raisonnable d'espérer obtenir des mesures continues de l'erreur d'enquête totale en se servant de l'erreur quadratique moyenne. Au lieu de cela, on peut espérer qu'une amélioration continue de la qualité par l'application des idées des sciences de la gestion ainsi que des méthodes statistiques permettra de minimiser les biais et d'autres problèmes que posent les processus d'enquête, afin que la variance devienne une approximation de l'erreur quadratique moyenne. Si nous y arrivons, nous aurons fait coïncider approximativement les deux démarches de développement.

    Date de diffusion : 2012-12-19

  • Articles et rapports : 12-001-X201100211604
    Description :

    Nous proposons une méthode d'estimation de l'erreur quadratique moyenne (EQM) pour les estimateurs des moyennes de domaine en population finie qui peuvent être exprimés sous une forme pseudo-linéaire, c'est-à-dire comme une somme pondérée des valeurs d'échantillon. En particulier, la méthode proposée peut être utilisée pour estimer l'EQM du meilleur prédicteur linéaire sans biais empirique, de l'estimateur direct fondé sur un modèle et du prédicteur du M-quantile. Elle représente une extension des idées de Royall et Cumberland (1978) et mène à des estimateurs de l'EQM qui sont plus simples à mettre en oeuvre et éventuellement plus robustes au biais que ceux proposés dans la littérature sur les petits domaines. Cependant, il convient de souligner que les estimateurs de l'EQM définis en utilisant cette méthode peuvent également présenter une grande variabilité quand les tailles d'échantillon de domaine sont très petites. Nous illustrons les propriétés de la méthode à l'aide de simulations à grande échelle sous un modèle et sous un plan de sondage, dans ce dernier cas en nous fondant sur deux ensembles de données d'enquête réels contenant des données sur des petits domaines.

    Date de diffusion : 2011-12-21
Données (6)

Données (6) ((6 résultats))

  • Tableau : 98-508-X
    Description :

    Le Supplément des erreurs-types dans le Profil du recensement comprend l’erreur-type pour chaque estimation tirée du questionnaire détaillé, de même que les données normalisées du Profil du recensement pour une ADA donnée, sa division de recensement (DR) correspondante et sa province ou son territoire, de même que le Canada. Il peut être téléchargé au complet ou pour une région donnée dans une multitude de formats courants, notamment CSV, TAB et IVT. Du contenu supplémentaire sera ajouté à ce produit lors de sa mise à jour qui sera diffusée le 29 novembre 2017.

    Date de diffusion : 2018-01-19

  • Microdonnées à grande diffusion : 82M0011X
    Description :

    L'objectif principal de l'Enquête sur le tabagisme chez les jeunes de 2002 (ETJ) est de fournir des renseignements courants sur les habitudes en matière de tabagisme des jeunes de la 5e à la 9e année (5e et 6e années du primaire et 1re, 2e et 3e années du secondaire au Québec) et d'évaluer les changements qui se sont produits depuis la dernière fois que cette enquête était menée soit en 1994. De plus, en 2002, on a recueilli des données de base sur la consommation d'alcool et de drogues chez les élèves de la 7e à la 9e année (de la 1re à la 3e année du secondaire au Québec). Les résultats de l'Enquête sur le tabagisme chez les jeunes servent à évaluer des programmes de la lutte au tabagisme et à la consommation de drogues ainsi qu'à élaborer de nouveaux programmes.

    Date de diffusion : 2004-07-14

  • Tableau : 50-002-X20010015780
    Description :

    La section 1 décrit les résultats pour les petits transporteurs pour compte d'autrui dont les recettes d'exploitation se situent entre 30 000 $ et 1 million de dollars. La section 2 présente les données pour l'ensemble des chauffeurs contractants compris dans l'Enquête annuelle auprès des transporteurs routiers de marchandises (petits transporteurs pour compte d'autrui et chauffeurs contractants), y compris pour certaines entreprises dont les recettes d'exploitation ont dépassé 1 000 000 $. La section 3 présente une analyse générale de la méthodologie et de la qualité des données de l'Enquête annuelle auprès des transporteurs routiers de marchandises (petits transporteurs pour compte d'autrui et chauffeurs contractants).

    Date de diffusion : 2001-06-29

  • Microdonnées à grande diffusion : 82M0010X
    Description :

    L'Enquête nationale sur la santé de la population (ENSP) vise à recueillir de l'information sur la santé de la population canadienne. Le premier cycle de collecte de données a débuté en 1994. La composante des établissements de soins de santé vise les résidents à long terme (plus de six mois) d'établissements de soins comportant quatre lits ou plus à travers le Canada , à l'exclusion du Yukon et des Territoires du Nord-Ouest. Le document a pour but de faciliter la manipulation du fichier de microdonnées 1996-1997 qui comprend les résultats de l'enquête. Les principales variables comprennent : démographie, état de santé, conditions chroniques, limitation d'activités, socio-demographie, et autres.

    Date de diffusion : 2000-08-02

  • Microdonnées à grande diffusion : 89M0018X
    Description :

    Cette une produit CD-ROM de l'Enquête sur l'alphabétisation des adultes en Ontario (EAAO) qui a été menée au printemps 1998. Cette enquête avait comme objectif de fournir de l'information sur : les capacités des immigrants de l'Ontario à parler soit anglais ou français durant leurs activités quotidiennes; et la façon dont les immigrants perçoivent leurs capacités de lecture et d'écriture, leurs besoins de formation et les obstacles auxquels ils font face concernant la formation.

    Afin de couvrir la majorité des immigrants de l'Ontario, les régions métropolitaines de recensement (RMR) de Toronto, Hamilton, Ottawa, Kitchener, London et St. Catharines étaient comprises dans l'échantillon. Avec ces six RMR, environ 83 % des immigrants faisaient partie de la base de sondage. Cet échantillon de 7 107 ménages couvre la population des immigrants de l'Ontario en général de même qu'une partie plus spécifique de ces derniers, c'est-à-dire les immigrants dont la langue maternelle est l'italien, le chinois, le portugais, le polonais et l'espagnol, et les immigrants nés dans les petites Caraïbes dont la langue maternelle est l'anglais.

    Chaque interview durait environ une heure et demie et consistait en un questionnaire d'une demi-heure (questions à caractère démographique et concernant les capacités de lecture et d'écriture) et un test de mesure de l'alphabétisme d'une heure. Le test était dérivé de celui qui a été utilisé pour l'Enquête internationale de l'alphabétisation des adultes (EIAA) de 1994, et couvrait les domaines des textes schématiques et au contenu quantitatif. Un taux de réponse de 76 % a été atteint, c'est-à-dire 4 648 répondants.

    Date de diffusion : 1999-10-29

  • Microdonnées à grande diffusion : 82F0001X
    Description :

    On utilise la base de sondage de l'Enquête sur la population active afin de tirer un échantillon d'environ 22 000 ménages pour l'Enquête nationale sur la santé de la population (ENSP). L'échantillon est distribué entre quatre périodes trimestrielles de collecte. Dans chacun des ménages, certains renseignements sommaires sont réunis auprès de tous les membres du ménage puis un membre du ménage, âgé de 12 ans et plus, choisi au hasard répond en plus à une interview en profondeur.

    Le questionnaire porte sur l'état de santé, l'utilisation des services de santé, les déterminants de la santé et un éventail de facteurs démographiques et économiques. Par exemple, pour les renseignements recueillis sur l'état de santé, il y a un indice de l'état de santé ainsi que des données sur les affections chroniques, sur les restrictions d'activités et sur la perception qu'a le répondant de la santé. L'utilisation des services de santé est évaluée au moyen de visites aux prestateurs de soins de santé, traditionnels et non traditionnels, et de questions sur les médicaments et drogues. Parmi les déterminants de la santé, on retrouve l'usage du tabac, la consommation d'alcool, l'activité physique; en outre, on insistera plus particulièrement, pour la première enquête, sur certains facteurs psycho-sociaux pouvant avoir une incidence sur la santé, notamment le stress, l'estime de soi et le soutien social. Les renseignements démographiques et économiques comprennent l'âge, le sexe, la scolarité, l'origine ethnique, le revenu du ménage et la situation vis-à-vis de l'activité.

    Date de diffusion : 1995-11-21
Analyses (65)

Analyses (65) (40 à 50 de 65 résultats)

  • Articles et rapports : 12-001-X20050018084
    Description :

    Les instituts nationaux de statistique intègrent parfois des expériences dans les enquêtes par sondage courantes afin d'étudier les effets éventuels de diverses techniques d'enquête sur les estimations des paramètres d'une population finie. En vue de tester les hypothèses au sujet des différences entre les estimations par sondage obtenues on applique diverses variantes de l'enquête, nous élaborons une théorie fondée sur le plan de sondage pour analyser des plans en randomisation totale ou des plans en blocs randomisés intégrés dans des plans de sondage complexes généraux. Pour ces deux types de plans d'expérience, nous établissons une statistique de Wald fondée sur le plan de sondage pour l'estimateur d'Horvitz-Thompson et pour l'estimateur par la régression généralisée. Enfin, nous illustrons la théorie au moyen d'une étude en simulation.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018085
    Description :

    Le couplage d'enregistrements est un processus qui consiste à apparier des enregistrements provenant de deux fichiers en essayant de sélectionner les paires dont les deux enregistrements appartiennent à une même entité. La démarche fondamentale consiste à utiliser un poids d'appariement pour mesurer la probabilité qu'un appariement soit correct et une règle de décision pour décider si une paire d'enregistrements constitue un « vrai » ou un « faux » appariement. Les seuils de poids utilisés pour déterminer si une paire d'enregistrements représente un appariement ou un non appariement dépend du niveau de contrôle souhaité sur les erreurs de couplage. Les méthodes appliquées à l'heure actuelle pour déterminer les seuils de sélection et estimer les erreurs de couplage peuvent donner des résultats divergents, selon le type d'erreur de couplage et la méthode de couplage. L'article décrit une étude de cas reposant sur les méthodes existantes de couplage pour former les paires d'enregistrements, mais sur une nouvelle approche de simulation (SimRate) pour déterminer les seuils de sélection et estimer les erreurs de couplage. SimRate s'appuie sur la distribution observée des données dans les paires appariées et non appariées afin de générer un grand ensemble simulé de paires d'enregistrements, d'attribuer un poids d'appariement à chacune de ces paires d'après les règles d'appariement spécifiées et d'utiliser les courbes de distribution des poids des paires simulées pour estimer l'erreur.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018087
    Description :

    Dans le domaine de la statistique officielle, le processus de vérification des données joue un rôle important dans la rapidité de production, l'exactitude des données et les coûts d'enquête. Les techniques adoptées pour déceler et éliminer les erreurs que contiennent les données doivent essentiellement tenir compte simultanément de tous ces aspects. L'une des erreurs systématiques que l'on observe fréquemment dans les enquêtes visant à recueillir des données numériques est celle de l'unité de mesure. Cette erreur a une forte incidence sur la rapidité de production, l'exactitude des données et le coût de la phase de vérification et d'imputation. Dans le présent article, nous proposons une formalisation probabiliste du problème basée sur des modèles de mélanges finis. Ce cadre nous permet de traiter le problème dans un contexte multivarié et fournit en outre plusieurs diagnostics utiles pour établir la priorité des cas qui doivent être examinés plus en profondeur par examen manuel. Le classement des unités par ordre de priorité est important si l'on veut accroître l'exactitude des données, tout en évitant de perdre du temps en faisant le suivi d'unités qui ne sont pas vraiment critiques.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018094
    Description :

    Les modèles de régression à erreur emboîtée sont utilisés fréquemment pour l'estimation par petits domaines et les problèmes connexes. Cependant, l'application des critères standard de sélection du modèle de régression aux modèles à erreur emboîtée donne parfois lieu à des méthodes de sélection du modèle inefficaces. Nous illustrons ce point en examinant les propriétés de la statistique C_P au moyen d'une étude par simulation de Monte Carlo. L'inefficacité de la statistique C_P peut, cependant, être corrigée grâce à une transformation appropriée des données.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 75F0002M2005004
    Description :

    L'Enquête sur la dynamique du travail et du revenu (EDTR) est une enquête longitudinale qui date de 1993. Elle se veut un moyen de mesurer les variations du bien-être économique des Canadiens ainsi que les facteurs touchant ces changements.

    Les enquêtes par sondage peuvent comporter des erreurs. Comme dans toutes ses enquêtes, Statistique Canada met un temps et un effort considérable à contrôler ces erreurs à chaque stade de l'Enquête sur la dynamique du travail et du revenu. Mais il y a quand même des erreurs. Statistique Canada a pour politique de fournir des mesures de la qualité des données pour aider ses utilisateurs à bien interpréter les données. Le présent rapport résume les mesures de qualité qui ont pour objet de décrire la qualité des données de l'EDTR. Parmis les mesures incluses dans le rapport nous retrouvons la composition de l'échantillon, le taux d'érosion, les erreurs d'échantillonnage, les erreurs de couverture, le taux de réponse, le taux de permission d'accès au dossier fiscal, le taux de couplage avec le dossier fiscal et le taux d'imputation.

    Date de diffusion : 2005-05-12

  • Articles et rapports : 12-001-X20040027747
    Description :

    La réduction de l'exactitude de la classification révisée des personnes en chômage dans la Current Population Survey (CPS) a été décrite dans Biemer et Bushery (2000). Dans le présent article, nous donnons des preuves supplémentaires de cette anomalie et essayons de découvrir la source de l'erreur grâce à une analyse étendue des données de la CPS recueillies avant et après le remaniement. L'article présente une approche novatrice de décomposition de l'erreur dans le cas d'un processus de classification complexe, comme la classification de la situation d'activité de la CPS, par une analyse markovienne de classes latentes (MLCA). En vue de déterminer la cause de la perte apparente d'exactitude de la classification des chômeurs, nous recensons les composantes clés du questionnaire qui déterminent les classifications et nous estimons la contribution de chacune à l'erreur totale du processus de classification. Ces travaux serviront d'orientation aux études futures des causes profondes des erreurs lors de la collecte de données sur la situation d'activité dans le cadre de la CPS, éventuellement au moyen d'expériences cognitives en laboratoire et (ou) d'essais sur le terrain.

    Date de diffusion : 2005-02-03

  • Articles et rapports : 11-522-X20030017702
    Description :

    Dans ce document, on présente une procédure pour tester les hypothèses concernant les différences entre les estimations d'échantillon observées sous diverses méthodes d'enquête.

    Date de diffusion : 2005-01-26

  • Articles et rapports : 11-522-X20030017719
    Description :

    Ce document porte sur les questions de détermination du modèle, les choix de valeurs antérieures pour les paramètres de modélisation dans l'estimation hiérarchique bayésienne (BH), l'étalonnage en fonction d'estimateurs directs sûrs de grandes régions et l'utilisation du facteur de pondération dans une estimation par modèle et d'autres questions pratiques relativement à l'estimation basée sur le modèle pour de petites régions.

    Date de diffusion : 2005-01-26

  • Articles et rapports : 11-522-X20020016716
    Description :

    Le problème des données manquantes se pose dans toutes les enquêtes à grande échelle. Habituellement, on le contourne en limitant l'analyse aux cas pour lesquels les enregistrements sont complets ou en imputant, pour chaque question dont la réponse manque, une valeur estimée efficacement. Dans cet article, on examine les défauts de ces approches, particulièrement dans le contexte de l'estimation d'un grand nombre de quantités. L'article porte principalement sur deux exemples d'analyse basée sur l'imputation multiple.

    Dans le premier exemple, les données sur la situation d'emploi selon les critères de l'Organisation internationale du travail (OIT) sont imputées, dans le cas de la British Labour Force Survey, par une méthode bootstrap bayesienne. Il s'agit d'une adaptation de la méthode hot deck qui vise à exploiter pleinement les données auxiliaires. Des données auxiliaires importantes sont fournies par la situation OIT antérieure, si elle est connue, ainsi que les variables démographiques ordinaires.

    Les données manquantes peuvent être interprétées de façon plus générale, comme dans le cadre de l'algorithme EM (expectation maximization). Le deuxième exemple, tiré de la Scottish House Condition Survey, porte sur l'incohérence des enquêteurs. Ces derniers évaluent les unités de logement échantillonnées en fonction d'un grand nombre d'éléments ou de caractéristiques du logement, comme les murs internes, le toit et la plomberie, auxquels sont attribués des scores qui sont convertis de façon globale en un « coût de réparation complet ». Le degré d'incohérence est estimé d'après les discordances entre les paires d'évaluations de logements ayant fait l'objet d'une double inspection. Les questions principales ont trait à la quantité d'information perdue en raison de l'incohérence et cherchent à savoir si les estimateurs naïfs qui ne tiennent pas compte de cette incohérence sont biaisés. Le problème est résolu par l'imputation multiple qui génère des scores plausibles pour tous les logements visés par l'enquête.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016737
    Description :

    Même si l'ensemble de données disponibles pour l'apprentissage automatique résulte d'un échantillonnage en grappes (par exemple les patients d'un échantillon de salles d'hôpital), l'estimation habituelle du taux d'erreur par validation croisée peut donner des résultats biaisés et trompeurs. Dans cet article technique, on décrit une validation croisée adaptée à ce cas. Par simulation, on compare la distribution d'échantillonnage de l'estimation du taux d'erreur en généralisation, sous l'hypothèse d'échantillonnage en grappes ou d'échantillonnage aléatoire simple, à la valeur réelle. Les résultats soulignent l'influence du plan d'échantillonnage sur l'inférence : l'effet de la mise en grappes est manifestement significatif; la répartition entre l'ensemble d'apprentissage et l'ensemble de test devrait résulter d'une partition aléatoire des grappes et non d'une partition aléatoire des exemples. Dans le cas de l'échantillonnage en grappes, la validation croisée type sous-estime le taux d'erreur en généralisation et ne donne pas de bons résultats pour la sélection du modèle. Ces résultats sont illustrés au moyen d'une application réelle de reconnaissance automatique de la parole.

    Date de diffusion : 2004-09-13
Références (10)

Références (10) ((10 résultats))

  • Avis et consultations : 12-002-X
    Description :

    Le Bulletin technique et d'information (BTI) des Centres de données de recherche (CDR) est un forum où les analystes de Statistique Canada et les personnes travaillant dans le milieu de la recherche peuvent communiquer entre eux au sujet de l'utilisation des données d'enquête et des techniques méthodologiques. Les articles du BTI seront axés sur l'analyse et la modélisation de données, la gestion des données ainsi que les pratiques exemplaires ou inefficaces sur le plan statistique, informatique et scientifique. De plus, les thèmes du BTI comprendront des articles portant sur le contenu des données, les répercussions de la formulation des questionnaires, la comparaison d'ensembles de données, les études traitant des méthodologies et de leur application, les particularités des données, les données problématiques et les solutions proposées et enfin la présentation d'outils novateurs utilisant les données des CDR et des logiciels appropriés. Tous ces articles permettront d'offrir des conseils et des exemples détaillés de commandes, d'habitudes, d'astuces et de stratégies pouvant aider les utilisateurs des CDR à résoudre des problèmes.

    Les principaux objectifs du BTI sont les suivants :

    - l'avancement et la diffusion des connaissances relatives aux données de Statistique Canada;- l'échange d'idées entre les utilisateurs des CDR;- l'aide aux nouveaux utilisateurs;- la collaboration avec les spécialistes et les divisions spécialisées de Statistique Canada.

    Le BTI vise la publication d'articles de qualité, dignes d'être diffusés dans le milieu de la recherche et susceptibles d'accroître la qualité des travaux effectués dans les CDR de Statistique Canada.

    Date de diffusion : 2015-03-25

  • Enquêtes et programmes statistiques — Documentation : 92-567-X
    Description :

    Le Rapport technique sur la couverture présentera l'erreur incluse dans les données du recensement provenant des personnes manquées par le Recensement de 2006 ou des personnes dénombrées par erreur. Les erreurs de couverture de la population sont parmi les types d'erreurs les plus importants car ils ont incidence, non seulement sur l'exactitude des chiffres de population, mais également sur l'exactitude de tous les résultats des données du recensement décrivant les caractéristiques de l'univers de la population.

    Date de diffusion : 2010-03-25

  • Enquêtes et programmes statistiques — Documentation : 13F0026M2007001
    Description :

    Ce guide a pour but de faciliter l'utilisation du fichier de microdonnées à grande diffusion (FMGD) de l'Enquête sur la sécurité financière (ESF) de 1999 menée par la Section des enquêtes sur les pensions et le patrimoine, de la Division de la statistique du revenu.

    Date de diffusion : 2007-09-04

  • Enquêtes et programmes statistiques — Documentation : 62F0026M2005006
    Description :

    Dans ce rapport, on présente les indicateurs de qualité produits pour l'Enquête sur les dépenses des ménages de 2003. Ces indicateurs de qualité, tels que les coefficients de variation, les taux de non-réponse, les taux de glissement et les taux d'imputation, permettent aux utilisateurs d'interpréter les données.

    Date de diffusion : 2005-10-06

  • Enquêtes et programmes statistiques — Documentation : 62F0026M2004001
    Description :

    Dans ce rapport, on présente les indicateurs de qualité produits pour l'Enquête sur les dépenses des ménages de 2002. Ces indicateurs de qualité, tels que les coefficients de variation, les taux de non-réponse, les taux de glissement et les taux d'imputation, permettent aux utilisateurs d'interpréter les données.

    Date de diffusion : 2004-09-15

  • Enquêtes et programmes statistiques — Documentation : 92-391-X
    Description :

    Ce rapport renferme des renseignements de base sur les concepts et la qualité des données visant à faciliter l'utilisation et l'interprétation des données du recensement sur l'industrie. Il donne un aperçu du cycle de traitement des données, qui comprend notamment le dépouillement régional, le contrôle et l'imputation ainsi que le calcul des taux d'erreur. Une description détaillée des systèmes de codage automatisé utilisés au recensement de 2001, ainsi que des changements importants apportés aux méthodes d'imputation, est également fournie. Enfin, ce rapport contient des tableaux sommaires faisant état de la qualité des données du recensement de 2001 portant sur l'industrie. Les annexes renferment des données chronologiques remontant au recensement de 1971.

    Date de diffusion : 2004-06-02

  • Enquêtes et programmes statistiques — Documentation : 62F0026M2003001
    Description :

    Dans ce rapport, on présente les indicateurs de qualité produits pour l'Enquête sur les dépenses des ménages de 2001. On y trouve également les indicateurs de qualité usuels utiles aux utilisateurs pour l'interprétation des données, tels que les coefficients de variation, les taux de non-réponse, les taux de glissement et les taux d'imputation.

    Date de diffusion : 2003-11-26

  • Enquêtes et programmes statistiques — Documentation : 82-003-X20010036099
    Description :

    Les données tirées du premier cycle (cycle 1.1) de l'Enquête sur la santé dans les collectivités canadiennes (ESCC) fourniront des renseignements à l'égard de 136 régions socio-sanitaires. Voici un aperçu du plan de l'enquête, de la stratégie d'échantillonnage, des méthodes d'interview ainsi que des procédures de collecte et de traitement des données.

    Date de diffusion : 2002-03-13

  • Enquêtes et programmes statistiques — Documentation : 62F0026M2001004
    Géographie : Province ou territoire
    Description :

    Ce guide présente de l'information qui intéresse les utilisateurs des données provenant de l'Enquête sur les dépenses des ménages. Les données sont recueillies au moyen d'entrevues personnelles menées en janvier, en février et en mars suivant l'année de référence, à l'aide d'un questionnaire papier. Nous obtenons des renseignements sur les habitudes de dépense, les caractéristiques des logements et de l'équipement ménager des ménages canadiens pendant l'année de référence. L'enquête vise des ménages privés dans les dix provinces. (Les trois territoires sont enquêtés tous les deux ans, debutant en 2001.)

    Ce guide comprend les définitions des termes et des variables de l'enquête ainsi que des descriptions de la méthodologie de l'enquête et de la qualité des données. Il contient aussi une section décrivant les différentes statistiques pouvant être créées au moyen des données sur les dépenses (p. ex. part du budget, part du marché, et agrégats).

    Date de diffusion : 2001-12-12

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19980015036
    Description :

    En tant que généralisation de la régression logistique, la régression logistique multivariée, introduite par Glonek et McCullagh (1995), facilite l'analyse des données longitudinales en acceptant les observations répétées et dépendantes d'une variable nominale ainsi que des jeux de réponses incomplets. L'auteur montre comment étendre cette méthode au traitement des données d'une enquête complexe et en fournit l'illustration grâce à l'Enquête sur la population active suisse. Il examine également l'incidence des poids d'échantillonnage sur l'estimation des paramètres et des erreurs-types.

    Date de diffusion : 1999-10-22
Date de modification :