Recherche par mot-clé

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Année de publication

1 facets displayed. 1 facets selected.

Géographie

2 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (98)

Tout (98) (30 à 40 de 98 résultats)

  • Articles et rapports : 11-522-X20020016730
    Description :

    Une vaste gamme de modèles utilisés dans le domaine de la recherche sociale et économique peuvent être représentés en spécifiant une structure paramétrique pour les covariances des variables observées. L'existence de logiciels tels que LISREL (Jöreskog et Sörbom, 1988) et EQS (Bentler, 1995) a permis d'ajuster ces modèles aux données d'enquêtes dans de nombreuses applications. Dans cet article, on étudie deux inférences au sujet de ce genre de modèle en utilisant des données d'enquêtes à plan d'échantillonnage complexe. On examine les preuves de l'existence de biais d'échantillon fini dans l'estimation des paramètres et les moyens de réduire ces biais (Altonji et Segal, 1996), ainsi que les questions connexes de l'efficacité de l'estimation, de l'estimation de l'erreur type et des tests. On utilise des données longitudinales provenant de la British Household Panel Survey en guise d'illustration. La collecte de ces données étant sujette à l'érosion de l'échantillon, on examine aussi comment utiliser des poids de non réponse dans la modélisation.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016731
    Description :

    En recherche behavioriste, diverses techniques sont utilisées pour prédire les scores des répondants pour des facteurs ou des concepts que l'on ne peut observer directement. La satisfaction concernant l'emploi, le stress au travail, l'aptitude à poursuivre des études de deuxième ou de troisième cycle et les aptitudes mathématiques des enfants en sont des exemples. Les méthodes utilisées couramment pour modéliser ce genre de concepts incluent l'analyse factorielle, la modélisation d'équation structurelle, les échelles psychométriques classiques et la théorie de la réponse à l'item, et, pour chaque méthode, il existe souvent plusieurs stratégies distinctes permettant de produire des scores individuels. Cependant, les chercheurs se satisfont rarement de simples mesures de ces concepts. Souvent, ils utilisent des scores dérivés en tant que variables dépendantes ou indépendantes dans la régression multiple, l'analyse de la variance et de nombreuses autres procédures multivariées. Bien que ces applications de scores dérivés puissent produire des estimations biaisées des paramètres des modèles structuraux, ces difficultés sont mal comprises et souvent ignorées. Nous passerons en revue les publications qui traitent de la question, en mettant l'accent sur les méthodes de la TRI, en vue de déterminer quels sont les domaines problématiques et de formuler des questions à étudier dans l'avenir.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016732
    Description :

    L'analyse de la relation dose-réponse joue depuis longtemps un rôle important en toxicologie. Plus récemment, on l'a employée pour évaluer les campagnes publiques d'éducation. Les données qui sont recueillies durant de telles évaluations proviennent le plus souvent d'enquêtes ménages à plan d'échantillonnage type présentant la complexité habituelle de l'échantillonnage à plusieurs degrés, de la stratification et de la variabilité des probabilités de sélection. Lors d'une évaluation récente, on a développé un système présentant les caractéristiques suivantes : une catégorisation des doses à trois ou quatre niveaux; une cotation de la propension à sélectionner la dose; et un nouveau test de Jonckheere-Terpstra fondé sur le jackknife pour une relation dose-réponse monotone. Ce système permet de produire rapidement, pour les relations dose-réponse monotones, des tests qui sont corrigés à la fois pour le plan d'échantillonnage et pour les variables confusionnelles. Dans cet article, on se concentre sur les résultats d'une simulation de Monte Carlo des propriétés du test de Jonckheere-Terpstra fondé sur le jackknife.

    En outre, il n'existe aucun contrôle expérimental sur les dosages et il faut envisager l'existence éventuelle de variables confusionnelles. Les régressions types figurant dans WESVAR et SUDAAN pourraient être utilisées pour déterminer s'il existe une relation dose-réponse linéaire en tenant compte de l'effet des variables confusionnelles. Par contre, cette démarche ne semble pas très indiquée pour déceler les relations dose-réponse non linéaires et non monotones, et son application est longue si le nombre possible de variables étudiées est grand.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016733
    Description :

    Bien qu'on considère souvent que les recensements et les enquêtes donnent des mesures des populations telles qu'elles sont, la plupart reflètent les renseignements sur les particuliers tels qu'ils étaient au moment où la mesure a été effectuée, voire à un point antérieur dans le temps. Par conséquent, les inférences faites à partir de telles données doivent tenir compte des changements qui surviennent au fil du temps à l'échelle de la population et des particuliers. Dans cet article, on fournit un cadre unique pour ce type de problèmes d'inférence, en l'illustrant au moyen de divers exemples, dont : 1) l'estimation de la situation de résidence le jour du recensement d'après des dossiers administratifs multiples; 2) la combinaison de dossiers administratifs pour estimer la taille de la population des États-Unis; 3) l'utilisation de moyennes mobiles tirées de l'American Community Survey; 4) l'estimation de la prévalence de l'abus des droits de l'homme.

    Plus précisément, à l'échelle de la population, les variables étudiées, telles que la taille ou les caractéristiques moyennes d'une population, pourraient évoluer. Parallèlement, des sujets individuels pourraient rentrer dans le champ de l'étude ou en sortir, ou changer de caractéristiques. Ces changements au fil du temps peuvent avoir des répercussions sur les études statistiques de données gouvernementales qui regroupent des renseignements provenant de sources multiples, y compris des recensements, des enquêtes et des dossiers administratifs, une pratique de plus en plus courante. Les inférences d'après les bases de données fusionnées résultantes dépendent souvent fortement de choix particuliers faits au moment de combiner, de vérifier et d'analyser les données qui reflètent des hypothèses quant à l'évolution ou à la stabilité de la population au fil du temps.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016734
    Description :

    Selon des documents publiés récemment, la méthode par calage est de plus en plus populaire en ce qui concerne l'échantillonnage, et nombre d'organismes d'enquête calculent régulièrement des estimateurs par calage. Cependant, pour toutes les méthodes existantes, le choix des variables de calage demeure ponctuel. Dans cet article, on montre que l'estimateur par calage basé sur un modèle de la moyenne d'une population finie, qui a été proposé par Wu et Sitter (2001) par raisonnement intuitif, est en effet optimal parmi une catégorie d'estimateurs par calage. En outre, on présente des estimateurs par calage optimaux pour la fonction de distribution d'une population finie, la variance de la population, la variance d'un estimateur linéaire et d'autres fonctions quadratiques de population finie dans un cadre de référence unifié. Une étude en simulation limitée révèle que l'amélioration de ces estimateurs optimaux par rapport aux estimateurs conventionnels peut être considérable. On aborde clairement la question de savoir quand et comment des données auxiliaires peuvent être utilisées tant pour l'estimation de la moyenne de la population à l'aide de l'estimateur par régression généralisée que pour l'estimation de sa variance par calage dans le contexte de la méthode générale proposée. On examine aussi la construction des estimateurs proposés en cas d'échantillonnage à deux degrés et certaines questions fondamentales relatives à l'utilisation d'information auxiliaire provenant de données d'enquête dans le contexte de l'estimation optimale.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016735
    Description :

    Dans le cadre du Recensement de la population de 2001, on a eu recours à l'estimation par calage ou par régression pour calculer un ensemble unique de coefficients de pondération au niveau du ménage pouvant être utilisé pour le calcul de toutes les estimations du recensement fondées sur les données recueillies auprès d'un échantillon national de 1 ménage sur 5 représentant plus de deux millions de ménages. Le nombre de variables auxiliaires étant très élevé, nous n'avons pu utiliser qu'un sous ensemble d'entre elles. Sinon, certains coefficients de pondération auraient été inférieurs à un, voire même négatifs. On a utilisé une méthode de sélection ascendante pour écarter les variables auxiliaires qui rendaient les coefficients de pondération inférieurs à un ou qui exigeaient un grand nombre de conditions pour qu'il y ait inversion de la matrice des poids de calage. En outre, nous avons procédé à deux ajustements de calage pour obtenir une bonne concordance entre les chiffres auxiliaires de population et les estimations pour les petites régions. Avant 2001, on utilisait l'estimateur par régression généralisée (GREG) pour la projection, et les coefficients de pondération ne pouvaient pas être nuls. Pour le Recensement de 2001, on est passé à un estimateur par régression pseudo optimal qui a permis de garder un plus grand nombre de variables auxiliaires tout en exigeant que les coefficients de pondération soient égaux ou supérieurs à un.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016736
    Description :

    Le U.S. Census Bureau finance des travaux de recherche dans le cadre de l'Optimal Design Program comme solution de rechange pour son remaniement décennal actuel des enquêtes démographiques. L'Optimal Design Program a pour but d'optimiser annuellement les échantillons remaniés et de réduire l'érosion de la précision des estimations d'enquête.

    Les premiers travaux se sont concentrés sur l'utilisation de systèmes multi agents (également connus sous le nom d'intelligence artificielle distribuée) pour produire des échantillons annuels optimaux pour toutes les enquêtes démographiques. Le premier système multi agents optimise les données d'entrée du remaniement. Il représente chaque unité de logement comme un agent autonome et procède à la résolution distribuée d'un problème de satisfaction de contraintes pour prévoir les caractéristiques du ménage qui concordent avec les données d'enquête et les estimations récentes. Le deuxième système multi agents sélectionne des échantillons optimaux pour toutes les enquêtes démographiques. Il représente chaque paire enquête État comme un agent délibératif et applique l'algorithme bayesien d'optimisation à chaque étape du plan de sondage pour répartir les unités d'échantillonnage en sous ensembles échantillonnés et non échantillonnés. Donc, les unités d'échantillonnage sont sélectionnées directement, sans qu'il soit nécessaire de procéder à une stratification initiale.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016737
    Description :

    Même si l'ensemble de données disponibles pour l'apprentissage automatique résulte d'un échantillonnage en grappes (par exemple les patients d'un échantillon de salles d'hôpital), l'estimation habituelle du taux d'erreur par validation croisée peut donner des résultats biaisés et trompeurs. Dans cet article technique, on décrit une validation croisée adaptée à ce cas. Par simulation, on compare la distribution d'échantillonnage de l'estimation du taux d'erreur en généralisation, sous l'hypothèse d'échantillonnage en grappes ou d'échantillonnage aléatoire simple, à la valeur réelle. Les résultats soulignent l'influence du plan d'échantillonnage sur l'inférence : l'effet de la mise en grappes est manifestement significatif; la répartition entre l'ensemble d'apprentissage et l'ensemble de test devrait résulter d'une partition aléatoire des grappes et non d'une partition aléatoire des exemples. Dans le cas de l'échantillonnage en grappes, la validation croisée type sous-estime le taux d'erreur en généralisation et ne donne pas de bons résultats pour la sélection du modèle. Ces résultats sont illustrés au moyen d'une application réelle de reconnaissance automatique de la parole.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016739
    Description :

    L'Enquête sur la population active (EPA) n'a pas été conçue comme une enquête longitudinale. Cependant, puisque les ménages répondants font habituellement partie de l'échantillon durant six mois consécutifs, il est possible de reconstruire des fragments de données longitudinales sur six mois à partir des enregistrements mensuels établis pour les membres des ménages. Ces données longitudinales - qui, regroupées, représentent des millions de mois personnes de données de niveaux individuel et familial - sont utiles pour l'analyse de la dynamique mensuelle du marché du travail sur des périodes relativement longues, de 20 années et plus.

    On utilise ces données pour estimer les fonctions de hasard décrivant les transitions entre les états sur le marché du travail : travailleur indépendant, travailleur rémunéré et chômeur. Les données sur la période d'occupation de l'emploi, pour les employés, et sur la date de cessation du dernier emploi, pour les chômeurs - conjuguées à la date de réponse à l'enquête - permettent d'inclure dans le modèle estimé des termes reflétant la saisonnalité et les cycles macroéconomiques, ainsi que la dépendance à l'égard de la durée de chaque type de transition. En outre, les données de l'EPA permettent d'inclure les variables d'activité du conjoint ou de la conjointe sur le marché du travail et de composition de la famille dans les modèles de hasard à titre de covariables variant avec le temps. Les équations de hasard estimées ont été incluses dans le modèle de microsimulation socioéconomique LifePaths. Dans ces conditions, on peut se servir des équations pour simuler l'activité sur le marché du travail au cours de la vie d'après les données sur les cohortes de naissance passées, présentes et futures. Les résultats des simulations transversales ont été utilisées pour valider ces modèles par comparaison aux données du recensement allant de 1971 à 1996.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016741
    Description :

    La linéarisation et le jackknife sont des méthodes fort répandues d'estimations des erreurs types des coefficients des modèles de régression linéaire ajustés à des échantillons à plusieurs degrés. Si le nombre d'unités primaires d'échantillonnage (UPE) est faible ou que quelques UPE ont un effet de levier important, les estimateurs par linéarisation peuvent présenter un biais négatif important et le jackknife de façon correspondante, un biais positif important. On décrit également les facteurs du plan de sondage qui produisent des biais importants dans ces estimateurs de l'erreur type. Dans cette étude, on propose un estimateur de rechange, appelé estimateur par linéarisation à biais réduit (LBR), inspiré des erreurs résiduelles corrigées pour mieux adoucir la covariance des erreurs vraies.

    Si les erreurs sont indépendantes et identiquement distribuées (iid), l'estimateur LDR est non biaisé. La méthode LDR s'applique à des échantillons stratifiés dont les poids de sélection ne sont pas constants et à des modèles linéaires généralisés tels que la régression logistique. On examine aussi les estimateurs LBR de l'erreur type pour les modèles à équation d'estimation généralisée qui modèlent explicitement l'interdépendance des observations faites sur la même UPE dans les données provenant de plans d'échantillonnage complexes. Les résultats d'une étude en simulation montrent que les erreurs types calculées par LBR combinées à l'approximation de Satterthwaite pour déterminer la distribution de référence produisent des tests avec des taux d'erreur de première espèce (type I) proches des valeurs nominales. On compare cette méthode à d'autres proposées par Kott (1994 et 1996) et par Mancl et DeRouen (2001).

    Date de diffusion : 2004-09-13
Données (1)

Données (1) ((1 résultat))

  • Tableau : 53-500-X
    Description :

    Dans ce rapport, on présente les résultats d'une enquête pilote menée par Statistique Canada pour mesurer la consommation de carburant des véhicules sur route immatriculés au Canada. Cette étude a été réalisée au moyen de l'Enquête sur les véhicules au Canada (EVC), qui permet de recueillir des données sur les activités routières tels que les distances parcourues, le nombre de passagers et la raison de chaque déplacement.

    Date de diffusion : 2004-10-21
Analyses (74)

Analyses (74) (0 à 10 de 74 résultats)

  • Articles et rapports : 75F0002M2004012
    Description :

    Dans cette étude, on compare les estimations de revenus dans le cadre de plusieurs programmes statistiques de Statistique Canada. On y examine comment des estimations semblables sont produites au moyen de séries de questions différentes.

    Les données sur le revenu sont recueillies dans le cadre de nombreuses enquêtes-ménages. Pour certaines enquêtes, le revenu est l'une des composantes principales du contenu, et l'information sur le revenu est donc recueillie à un niveau détaillé. Dans d'autres enquêtes, les données sont recueillies à partir d'une série de questions sur le revenu beaucoup plus restreinte. Fait à noter, aucune série normalisée de questions sur le revenu n'a été élaborée.

    Date de diffusion : 2004-12-23

  • Revues et périodiques : 92-395-X
    Description :

    Ce rapport donne une description des méthodes d'échantillonnage et de pondération utilisées pour le recensement de 2001. Il fournit un historique de l'application de ces méthodes aux recensements du Canada ainsi que les fondements opérationnels et théoriques de ces méthodes, et présente les resultats des études d'évaluation.

    Date de diffusion : 2004-12-15

  • Articles et rapports : 75F0002M2004010
    Description :

    Dans ce document, on présente un ensemble de lignes directrices pour l'analyse de la répartition du revenu. On met également l'accent sur la définition intuitive des concepts et des techniques, plutôt que sur des équations et des détails techniques.

    Date de diffusion : 2004-10-08

  • Articles et rapports : 12-002-X20040027032
    Description :

    Dans cet article, on examine pourquoi un grand nombre d'enquêtes de Statistique Canada fournissent des poids bootstrap avec leurs microdonnées pour faciliter l'estimation de la variance fondée sur le plan de sondage. Les poids bootstrap ne fonctionnent pas sous les logiciels commerciaux comme SUDAAN et Wes Var. Cependant, il existe des façons d'utiliser ces applications pour produire des estimations de la variation bootstrap.

    On conclut cet article en donnant un bref aperçu des autres méthodes d'estimation de la variance ainsi que les logiciels, les programmes et les procédures dans lesquels ces méthodes sont employées.

    Date de diffusion : 2004-10-05

  • Articles et rapports : 12-002-X20040027034
    Description :

    L'utilisation des fichiers de commandes dans Stat/Transfer permet d'accélérer le transfert de plusieurs ensembles de données, de manière efficace et reproductible. Dans cette note, on décrit une méthode simple, étape par étape, pour créer des fichiers de commandes et on présente également un exemple de code.

    Date de diffusion : 2004-10-05

  • Articles et rapports : 11-522-X20020016430
    Description :

    Les méthodes de linéarisation (ou série de Taylor) sont souvent utilisées pour estimer les erreurs-types des coefficients des modèles de régression linéaire ajustés à des échantillons à phases multiples. Lorsque le nombre d'unités primaires d'échantillonnage (UPE) est grand, la linéarisation peut produire des valeurs précises d'erreurs-types dans des conditions assez générales. Par contre, si ce nombre est faible ou que la valeur d'un coefficient dépend en grande partie des données provenant d'un petit nombre d'UPE, les estimateurs par linéarisation peuvent présenter un biais négatif important.

    Dans cet article, on définit les caractéristiques de la matrice de conception, qui biaisent fortement les erreurs-types estimées par la linéarisation des coefficients de régression linéaire. De plus, on propose une nouvelle méthode, appelée linéarisation à biais réduit (LBR), qui est fondée sur des résidus ajustés pour mieux évaluer approximativement la covariance des erreurs vraies. Si les erreurs sont indépendantes et pareillement distribuées, l'estimateur de LBR est sans biais pour la variance. En outre, une étude en simulation montre que la LBR peut réduire considérablement le biais, même si les erreurs ne sont pas indépendantes et pareillement distribuées. On propose aussi d'utiliser une approximation de Satterthwaite pour déterminer le nombre de degrés de liberté de la distribution de référence à l'égard des tests et des intervalles de confiance qui ont trait aux combinaisons linéaires de coefficients fondés sur l'estimateur de LBR. On démontre que l'estimateur de la variance jackknife a aussi tendance à être biaisé dans les situations où la linéarisation est faussée. Cependant, le biais du jackknife est généralement positif. L'estimateur par linéarisation à biais réduit peut être considéré comme un compromis entre l'estimateur par linéarisation standard et celui du jackknife.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016708
    Description :

    Cette étude traite de l'analyse des données d'enquêtes complexes sur la santé par des méthodes de modélisation multivariées. L'étude porte principalement sur diverses méthodes basées sur le plan d'échantillonnage ou basées sur un modèle qui visent à tenir compte de la complexité du plan d'échantillonnage, y compris la mise en grappes, la stratification et la pondération. Les méthodes étudiées incluent la modélisation linéaire généralisée fondée sur la pseudo-méthode de vraisemblance et les équations d'estimations généralisées, les modèles linéaires mixtes estimés par le maximum de vraisemblance restreint et les techniques hiérarchiques bayesiennes basées sur les méthodes de simulation de Monte Carlo d'une chaîne de Markov (MCMC). On compare empiriquement les méthodes sur des données provenant d'une grande enquête comprenant une interview sur la santé et un examen physique réalisés en Finlande en 2000 (Health 2000 Study).

    Les données de la Health 2000 Study ont été recueillies au moyen d'interviews sur place, de questionnaires et d'examens cliniques. L'enquête a été réalisée auprès d'un échantillon en grappes stratifié à deux degrés. Le plan d'échantillonnage comportait des corrélations intra grappes positives pour nombre de variables étudiées. En vue d'une étude plus approfondie, on a choisi un petit nombre de variables tirées des volets de l'interview sur la santé et de l'examen clinique. Dans de nombreux cas, les diverses méthodes ont produit des résultats numériques comparables et appuyés des conclusions statistiques similaires. Celles qui ne tenaient pas compte de la complexité du plan d'échantillonnage ont parfois produit des conclusions contradictoires. On discute aussi de l'application des méthodes lors de l'utilisation de logiciels statistiques standards.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016712
    Description :

    Dans cet article, on considère l'effet de la censure par intervalle du moment du renoncement sur l'estimation des paramètres d'intensité en ce qui concerne le renoncement au tabac et la grossesse. Les données recueillies lors des trois cycles de l'Enquête nationale sur la santé de la population permettent d'appliquer les méthodes d'analyse de la chronologie des événements à l'étude du commencement de l'usage du tabac, du renoncement au tabac et de la rechute. L'une des questions étudiées est la relation entre le renoncement au tabac et la grossesse. Si une répondante longitudinale qui fumait lors du premier cycle a cessé de fumer lors du deuxième, on connaît le moment du renoncement au tabac à plus ou moins un an près, puisqu'on demande à la répondante l'âge auquel elle a cessé de fumer et qu'on connaît sa date de naissance. On sait également si elle était enceinte au moment du deuxième cycle et si elle a donné naissance depuis l'interview du premier cycle. Pour de nombreux sujets, on connaît la date de conception à un intervalle de temps près assez faible. Si l'on connaissait exactement le moment du renoncement au tabac et la période de la grossesse pour chaque membre du panel longitudinal qui a vécu l'un ou l'autre de ces événements entre deux cycles, on pourrait modéliser leur lien temporel d'après leurs intensités.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016714
    Description :

    Dans cet article de nature très technique, on illustre l'application de la méthode de l'estimateur de la variance par le jackknife avec suppression d'un groupe à une étude longitudinale complexe à plusieurs cycles, montrant son utilité pour les modèles de régression linéaire et d'autres modèles analytiques. L'estimateur de la variance par le jackknife avec suppression d'un groupe représente un outil fort utile de mesure de la variance en cas de plan d'échantillonnage complexe. Cette méthode consiste à : diviser l'échantillon de premier degré en groupes mutuellement exclusifs et de variances presque égales; supprimer un groupe à la fois pour créer un ensemble de répétitions; procéder, sur chaque répétition, à des redressements par pondération analogues à ceux effectués sur l'échantillon dans son ensemble. L'estimation de la variance se fait selon la méthode usuelle (non stratifiée) du jackknife.

    On applique la méthode au Chicago Health and Aging Project (CHAP), une étude longitudinale communautaire visant à examiner les facteurs de risque de problèmes de santé chroniques chez les personnes âgées. L'un des objectifs importants de l'étude est d'examiner les facteurs de risque de la manifestation de la maladie d'Alzheimer. Le plan de sondage courant du CHAP comprend deux composantes : (1) Tous les trois ans, l'ensemble des membres survivants de la cohorte sont interviewés sur divers sujets liés à la santé. Ces interviews incluent des mesures des fonctions cognitives et physiques. (2) Durant chaque cycle de collecte des données, un échantillon de Poisson stratifié est sélectionné parmi les répondants à l'interview couvrant la population dans son ensemble afin de procéder à un examen clinique détaillé et à des tests neuropsychologiques. Pour étudier les facteurs de risque liés aux nouveaux cas de maladie, on définit une cohorte de personnes « exemptes de la maladie » au point précédent dans le temps et celle-ci forme une strate importante dans la base de sondage.

    On donne des preuves de l'applicabilité théorique du jackknife avec suppression d'un groupe à des estimateurs particuliers dans les conditions de cet échantillonnage de Poisson, en accordant l'attention nécessaire à la distinction entre l'inférence en population finie et en population infinie (modèle). En outre, on examine le problème de la détermination du « nombre correct » des groupes de variance.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016715
    Description :

    Dans cet article, on décrit l'imputation multiple de données sur le revenu dans le cas de la National Health Interview Survey et les problèmes méthodologiques qui se posent. En outre, on présente des résumés empiriques des imputations ainsi que les résultats d'une évaluation par la méthode de Monte Carlo des inférences basées sur des données sur le revenu résultant d'une imputation multiple.

    Les analystes de données sur la santé cherchent souvent à étudier les liens qui existent entre le revenu et la santé. La National Health Interview Survey, réalisée par le National Center for Health Statistics des Centers for Disease Control and Prevention aux États-Unis, constitue une riche source de données pour l'étude de tels liens. Cependant, les taux de non-réponse à deux questions essentielles sur le revenu, à savoir le revenu personnel et le revenu familial total, sont supérieurs à 20 %. En outre, ces taux de non-réponse semblent augmenter au fil du temps. Un projet en cours de réalisation vise à procéder à une imputation multiple du revenu personnel et du revenu familial, ainsi que des valeurs de certaines autres covariables pour les cycles de la National Health Interview Survey de 1997 et des années subséquentes.

    La mise au point de méthodes d'imputation multiple appropriées pour des enquêtes à aussi grande échelle pose de nombreux défis. D'abord, il existe un grand nombre de variables de divers types pour lesquelles les sauts de questions et les relations logiques diffèrent. Ensuite, on ignore quelles associations seront étudiées par les analystes des données résultant d'imputations multiples. Enfin, les données sur certaines variables, comme le revenu familial, sont recueillies à l'échelle des familles et d'autres, comme le revenu tiré d'un travail, le sont à l'échelle des particuliers. Afin que les imputations pour les variables à l'échelle des familles et des particuliers soient subordonnées à un aussi grand nombre de prédicteurs que possible, et pour simplifier la modélisation, on utilise une version modifiée de la méthode d'imputation par régression séquentielle décrite dans Raghunathan et coll. (Techniques d'enquête, 2001).

    Outre les problèmes liés à la nature hiérarchique des imputations qu'on vient de décrire, d'autres questions méthodologiques méritent d'être examinées, comme l'utilisation de transformations des variables de revenu, l'imposition de restrictions sur les valeurs des variables, la validité générale de l'imputation par régression séquentielle et, de façon encore plus générale, la validité des inférences basées sur une imputation multiple dans le cas d'enquêtes à plan d'échantillonnage complexe.

    Date de diffusion : 2004-09-13
Références (23)

Références (23) (0 à 10 de 23 résultats)

  • Enquêtes et programmes statistiques — Documentation : 62F0026M2004003
    Géographie : Province ou territoire
    Description :

    Dans ce guide, on présente de l'information susceptible d'intéresser les utilisateurs de données provenant de l'Enquête sur les dépenses des ménages. Dans le cadre de cette enquête, on recueille des données sur les habitudes de dépenses, les caractéristiques des logements et de l'équipement ménager des ménages canadiens.

    Ce guide comprend les définitions des termes et des variables de l'enquête, ainsi que des descriptions sur les méthodes de l'enquête et la qualité des données. Il contient aussi une section décrivant les statistiques pouvant être produites au moyen des données sur les dépenses (dont la part consacrée au budget, la part de marché et les agrégats).

    Date de diffusion : 2004-12-13

  • Enquêtes et programmes statistiques — Documentation : 92-394-X
    Description :

    Ce rapport décrit les erreurs de couverture qui se sont produites lorsque des personnes, des ménages, des logements ou des familles ont été oubliés ou dénombrés par erreur lors du recensement. Plusieurs études ont été réalisées après le recensement de 2001 en vue de produire des estimations du sous-dénombrement et du surdénombrement brut, de même que du sous-dénombrement net. Ce rapport présente les résultats de l'Étude sur la classification des logements, de l'Étude de la contre-vérification des dossiers, de l'Étude par appariement automatisé et de l'Étude sur les logements collectifs. On y décrit l'univers du recensement, l'erreur de couverture et les procédures de collecte et de traitement du recensement pouvant entraîner une erreur de couverture, puis on donne des estimations du sous-dénombrement net selon certaines caractéristiques démographiques. Le rapport technique présente ensuite les méthodes et les résultats de chacune des études de couverture, de même que les estimations d'erreur de couverture après qu'on ait décrit la manière dont les diverses études ont été combinées. Enfin, un aperçu chronologique met une touche finale au rapport.

    Date de diffusion : 2004-11-25

  • Enquêtes et programmes statistiques — Documentation : 13-604-M2004045
    Description :

    Quelle est la « qualité » des Indicateurs nationaux du tourisme (INT)? Comment peut-elle être mesurée? Cette étude vise à répondre à ces questions grâce à une analyse des révisions des estimations des INT de 1997 à 2001.

    Date de diffusion : 2004-10-25

  • Enquêtes et programmes statistiques — Documentation : 31-533-X
    Description :

    Commençant avec le mois de référence août 2004, l'Enquête mensuelle sur les industries manufacturières (EMIM) utilise des données administratives (fichiers de la taxe sur les produits et services) pour l'estimation des livraisons manufacturières pour une portion de petits établissements de l'échantillon. Ce document a été publié pour servir de complément à la diffusion des données de l'EMIM pour ce mois.

    Date de diffusion : 2004-10-15

  • Enquêtes et programmes statistiques — Documentation : 12-002-X20040027035
    Description :

    Lors du traitement des données du cycle 4 de l'Enquête longitudinale nationale sur les enfants et les jeunes (ELNEJ), des révisions historiques ont été apportées au trois premiers cycles de l'enquête afin de corriger des erreurs et faire une mise à jour des données. Au cours du traitement, une attention particulière a été portée à la variable PERSRUK (l'identificateur au niveau de la personne) et à la variable FIELDRUK (l'identificateur au niveau du ménage). Le même niveau d'attention n'a pas été accordé aux autres identificateurs incluent dans la base de données, soit, la variable CHILDID (un identificateur au niveau de l'enfant) et la variable _IDHD01 (un identificateur au niveau du ménage). Ces identificateurs ont été créés pour les fichiers publics et ils se retrouvent par défaut dans les fichiers maîtres. Lorsque les fichiers maîtres sont utilisés, la variable PERSRUK devrait être utilisée pour lier les différents fichiers de données de l'enquête entre eux et la variable FIELDRUK pour déterminer le ménage.

    Date de diffusion : 2004-10-05

  • Enquêtes et programmes statistiques — Documentation : 56F0003X
    Description :

    Ce produit électronique est un outil de référence détaillé qui contient un inventaire des enquêtes menées par Statistique Canada pour évaluer l'utilisation d'Internet par les ménages/individus. Ce produit se caractérise par le fait qu'il donne accès à des noms d'enquêtes, des descriptions (qui comprennent de l'information telle que l'objectif de l'enquête, la taille de l'échantillon, la fréquence, le groupe cible et le taux de réponse), des manuels d'utilisation, des diagrammes et des graphiques. On y retrouve également un graphique de comparabilité des questionnaires extrêmement utile qui permet de voir les parties qu'ont en commun les questionnaires. Bref, ce produit électronique est une source de documentation utile aux répondants, aux chercheurs et aux personnes qui travaillent de près ou de loin à l'élaboration d'enquêtes et à la conception de questionnaires.

    Date de diffusion : 2004-09-23

  • Enquêtes et programmes statistiques — Documentation : 62F0026M2004001
    Description :

    Dans ce rapport, on présente les indicateurs de qualité produits pour l'Enquête sur les dépenses des ménages de 2002. Ces indicateurs de qualité, tels que les coefficients de variation, les taux de non-réponse, les taux de glissement et les taux d'imputation, permettent aux utilisateurs d'interpréter les données.

    Date de diffusion : 2004-09-15

  • Enquêtes et programmes statistiques — Documentation : 92-390-X
    Description :

    Ce rapport renferme une définition sur le concept de lieu de travail en 2001 et sur la géographie du lieu de travail, ainsi qu'un texte normalisé sur la collecte des données et la couverture (méthodes de collecte des données, études spéciales sur la couverture, échantillonnage et pondération, contrôle et suivi, considérations sur la couverture et le contenu). Il contient également des textes généraux et spécialisés sur l'assimilation des données (codage automatisé et interactif), sur le contrôle et l'imputation ainsi que sur l'évaluation des données. Enfin, ce rapport technique contient une section traitant de la comparabilité des données dans le temps.

    Date de diffusion : 2004-08-26

  • Enquêtes et programmes statistiques — Documentation : 81-595-M2004020
    Géographie : Canada
    Description :

    Dans cet article, on fournit des renseignements concernant la collecte et l'interprétation des données statistiques sur le commerce international de biens de la culture du Canada. On y définit les produits qui sont inclus dans le commerce de la culture, et on explique comment les produits appropriés sont sélectionnés parmi les normes de classification pertinentes.

    Cette version a été remplacée par Guide d'utilisation des données du commerce des biens de la culture, no. 81-595-MIF2006040 au catalogue.

    Date de diffusion : 2004-07-28

  • Enquêtes et programmes statistiques — Documentation : 92-388-X
    Description :

    Ce rapport technique présente des renseignements de base sur les concepts et la qualité des données visant à faciliter l'utilisation et l'interprétation des données du recensement sur la profession. Il donne un aperçu des activités de collecte, de codage (selon la Classification nationale des professions pour statistiques de 2001), de contrôle et d'imputation des données sur la profession du recensement de 2001 ainsi qu'une description des changements apportés aux procédures du recensement de 2001 par rapport à celles des recensements précédents. Le rapport fournit également une analyse du degré de qualité des données du recensement de 2001 sur la profession et donne une description des modifications apportées à la Classification type des professions de 1991 utilisée lors des recensements de 1991 et de 1996 en vue d'établir la Classification nationale des professions pour statistiques de 2001 (CNP-S 2001), utilisée pour le recensement de 2001. Le rapport traite également de la comparabilité dans le temps des données codées selon ces deux classifications. Les annexes renferment un tableau présentant les données chronologiques des recensements de 1991, 1996 et 2001.

    Date de diffusion : 2004-07-15
Date de modification :