Recherche par mot-clé

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Année de publication

1 facets displayed. 1 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (12)

Tout (12) (0 à 10 de 12 résultats)

  • Enquêtes et programmes statistiques — Documentation : 12-002-X20040027035
    Description :

    Lors du traitement des données du cycle 4 de l'Enquête longitudinale nationale sur les enfants et les jeunes (ELNEJ), des révisions historiques ont été apportées au trois premiers cycles de l'enquête afin de corriger des erreurs et faire une mise à jour des données. Au cours du traitement, une attention particulière a été portée à la variable PERSRUK (l'identificateur au niveau de la personne) et à la variable FIELDRUK (l'identificateur au niveau du ménage). Le même niveau d'attention n'a pas été accordé aux autres identificateurs incluent dans la base de données, soit, la variable CHILDID (un identificateur au niveau de l'enfant) et la variable _IDHD01 (un identificateur au niveau du ménage). Ces identificateurs ont été créés pour les fichiers publics et ils se retrouvent par défaut dans les fichiers maîtres. Lorsque les fichiers maîtres sont utilisés, la variable PERSRUK devrait être utilisée pour lier les différents fichiers de données de l'enquête entre eux et la variable FIELDRUK pour déterminer le ménage.

    Date de diffusion : 2004-10-05

  • Articles et rapports : 11-522-X20020016708
    Description :

    Cette étude traite de l'analyse des données d'enquêtes complexes sur la santé par des méthodes de modélisation multivariées. L'étude porte principalement sur diverses méthodes basées sur le plan d'échantillonnage ou basées sur un modèle qui visent à tenir compte de la complexité du plan d'échantillonnage, y compris la mise en grappes, la stratification et la pondération. Les méthodes étudiées incluent la modélisation linéaire généralisée fondée sur la pseudo-méthode de vraisemblance et les équations d'estimations généralisées, les modèles linéaires mixtes estimés par le maximum de vraisemblance restreint et les techniques hiérarchiques bayesiennes basées sur les méthodes de simulation de Monte Carlo d'une chaîne de Markov (MCMC). On compare empiriquement les méthodes sur des données provenant d'une grande enquête comprenant une interview sur la santé et un examen physique réalisés en Finlande en 2000 (Health 2000 Study).

    Les données de la Health 2000 Study ont été recueillies au moyen d'interviews sur place, de questionnaires et d'examens cliniques. L'enquête a été réalisée auprès d'un échantillon en grappes stratifié à deux degrés. Le plan d'échantillonnage comportait des corrélations intra grappes positives pour nombre de variables étudiées. En vue d'une étude plus approfondie, on a choisi un petit nombre de variables tirées des volets de l'interview sur la santé et de l'examen clinique. Dans de nombreux cas, les diverses méthodes ont produit des résultats numériques comparables et appuyés des conclusions statistiques similaires. Celles qui ne tenaient pas compte de la complexité du plan d'échantillonnage ont parfois produit des conclusions contradictoires. On discute aussi de l'application des méthodes lors de l'utilisation de logiciels statistiques standards.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016717
    Description :

    Aux États-Unis, la National Health and Nutrition Examination Survey (NHANES) est couplée à la National Health Interview Survey (NHIS) au niveau de l'unité primaire d'échantillonnage (les mêmes comtés, mais pas nécessairement les mêmes personnes, participent aux deux enquêtes). La NHANES est réalisée auprès d'environ 5 000 personnes par année, tandis que la NHIS l'est auprès d'environ 100 000 personnes par année. Dans cet article, on expose les propriétés de modèles qui permettent d'utiliser les données de la NHIS et des données administratives comme information auxiliaire pour estimer les valeurs des variables étudiées dans le cadre de la NHANES. La méthode, qui est apparentée aux modèles régionaux de Fay Herriot (1979) et aux estimateurs par calage de Deville et Sarndal (1992), tient compte des plans de sondage dans la structure de l'erreur.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016719
    Description :

    Dans cette étude, on examine les méthodes de modélisation utilisées pour les données sur la santé publique. Les spécialistes de la santé publique manifestent un regain d'intérêt pour l'étude des effets de l'environnement sur la santé. Idéalement, les études écologiques ou contextuelles explorent ces liens au moyen de données sur la santé publique étoffées de données sur les caractéristiques environnementales à l'aide de modèles multiniveaux ou hiérarchiques. Dans ces modèles, le premier niveau correspond aux données des personnes sur la santé et le deuxième, aux données des collectivités. La plupart des données sur la santé publique proviennent d'enquêtes à plan d'échantillonnage complexe qui obligent, lors de l'analyse, à tenir compte de la mise en grappes, de la non-réponse et de la post-stratification pour obtenir des estimations représentatives de la prévalence des comportements posant un risque pour la santé.

    Cette étude est basée sur le Behavioral Risk Factor Surveillance System (BRFSS). Il s'agit d'un système américain de surveillance des facteurs de risque pour la santé selon l'État exploité par les Centers for Disease Control and Prevention en vue d'évaluer chaque année les facteurs de risque pour la santé chez plus de 200 000 adultes. Les données du BRFSS sont maintenant produites à l'échelle de la région métropolitaine statistique (MSA pour metropolitan statistical area) et fournissent des données de qualité sur la santé pour les études des effets de l'environnement. Les exigences conjuguées du plan d'échantillonnage et des analyses à plusieurs niveaux compliquent encore davantage les analyses à l'échelle de la MSA combinant les données sur la santé et sur l'environnement.

    On compare trois méthodes de modélisation dans le cadre d'une étude sur l'activité physique et certains facteurs environnementaux à l'aide de données du BRFSS de 2000. Chaque méthode décrite ici est un moyen valide d'analyser des données d'enquête à plan d'échantillonnage complexe complétées de données environnementales, quoique chacune tienne compte de façon différente du plan d'échantillonnage et de la structure multiniveau des données. Ces méthodes conviennent donc à l'étude de questions légèrement différentes.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016727
    Description :

    Les données tirées du recensement sont largement utilisées pour procéder à la répartition et au ciblage des ressources aux échelons national, régional et local. Au Royaume-Uni, un recensement de la population est mené tous les 10 ans. En s'éloignant de la date du recensement, les données du recensement deviennent périmées et moins pertinentes, ce qui rend la répartition des ressources moins équitable. Dans cette étude, on analyse les différentes méthodes pour résoudre ce problème.

    Plusieurs méthodes aréolaires ont été mises au point pour produire des estimations postcensitaires, y compris la technique d'estimation préservant la structure mise au point par Purcell et Kish (1980). Cette étude porte sur la méthode de modélisation linéaire variable pour produire des estimations postcensitaires. On teste la validité de la méthode au moyen de données simulées à partir du registre de population de la Finlande et on applique la technique aux données britanniques pour produire des estimations mises à jour pour plusieurs indicateurs du recensement de 1991.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016730
    Description :

    Une vaste gamme de modèles utilisés dans le domaine de la recherche sociale et économique peuvent être représentés en spécifiant une structure paramétrique pour les covariances des variables observées. L'existence de logiciels tels que LISREL (Jöreskog et Sörbom, 1988) et EQS (Bentler, 1995) a permis d'ajuster ces modèles aux données d'enquêtes dans de nombreuses applications. Dans cet article, on étudie deux inférences au sujet de ce genre de modèle en utilisant des données d'enquêtes à plan d'échantillonnage complexe. On examine les preuves de l'existence de biais d'échantillon fini dans l'estimation des paramètres et les moyens de réduire ces biais (Altonji et Segal, 1996), ainsi que les questions connexes de l'efficacité de l'estimation, de l'estimation de l'erreur type et des tests. On utilise des données longitudinales provenant de la British Household Panel Survey en guise d'illustration. La collecte de ces données étant sujette à l'érosion de l'échantillon, on examine aussi comment utiliser des poids de non réponse dans la modélisation.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016731
    Description :

    En recherche behavioriste, diverses techniques sont utilisées pour prédire les scores des répondants pour des facteurs ou des concepts que l'on ne peut observer directement. La satisfaction concernant l'emploi, le stress au travail, l'aptitude à poursuivre des études de deuxième ou de troisième cycle et les aptitudes mathématiques des enfants en sont des exemples. Les méthodes utilisées couramment pour modéliser ce genre de concepts incluent l'analyse factorielle, la modélisation d'équation structurelle, les échelles psychométriques classiques et la théorie de la réponse à l'item, et, pour chaque méthode, il existe souvent plusieurs stratégies distinctes permettant de produire des scores individuels. Cependant, les chercheurs se satisfont rarement de simples mesures de ces concepts. Souvent, ils utilisent des scores dérivés en tant que variables dépendantes ou indépendantes dans la régression multiple, l'analyse de la variance et de nombreuses autres procédures multivariées. Bien que ces applications de scores dérivés puissent produire des estimations biaisées des paramètres des modèles structuraux, ces difficultés sont mal comprises et souvent ignorées. Nous passerons en revue les publications qui traitent de la question, en mettant l'accent sur les méthodes de la TRI, en vue de déterminer quels sont les domaines problématiques et de formuler des questions à étudier dans l'avenir.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016733
    Description :

    Bien qu'on considère souvent que les recensements et les enquêtes donnent des mesures des populations telles qu'elles sont, la plupart reflètent les renseignements sur les particuliers tels qu'ils étaient au moment où la mesure a été effectuée, voire à un point antérieur dans le temps. Par conséquent, les inférences faites à partir de telles données doivent tenir compte des changements qui surviennent au fil du temps à l'échelle de la population et des particuliers. Dans cet article, on fournit un cadre unique pour ce type de problèmes d'inférence, en l'illustrant au moyen de divers exemples, dont : 1) l'estimation de la situation de résidence le jour du recensement d'après des dossiers administratifs multiples; 2) la combinaison de dossiers administratifs pour estimer la taille de la population des États-Unis; 3) l'utilisation de moyennes mobiles tirées de l'American Community Survey; 4) l'estimation de la prévalence de l'abus des droits de l'homme.

    Plus précisément, à l'échelle de la population, les variables étudiées, telles que la taille ou les caractéristiques moyennes d'une population, pourraient évoluer. Parallèlement, des sujets individuels pourraient rentrer dans le champ de l'étude ou en sortir, ou changer de caractéristiques. Ces changements au fil du temps peuvent avoir des répercussions sur les études statistiques de données gouvernementales qui regroupent des renseignements provenant de sources multiples, y compris des recensements, des enquêtes et des dossiers administratifs, une pratique de plus en plus courante. Les inférences d'après les bases de données fusionnées résultantes dépendent souvent fortement de choix particuliers faits au moment de combiner, de vérifier et d'analyser les données qui reflètent des hypothèses quant à l'évolution ou à la stabilité de la population au fil du temps.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016743
    Description :

    On s'intéresse beaucoup à l'utilisation de données provenant d'enquêtes longitudinales pour comprendre les processus qui surviennent au cours de la vie, comme la scolarité, l'emploi, la fécondité, la santé et le mariage. L'analyse des données sur la durée des épisodes que vivent les personnes dans certains états (par exemple, l'emploi, le mariage) est un des outils principaux de l'étude de ces processus. Cet article porte sur les méthodes d'analyse des données sur la durée qui tiennent compte de caractéristiques importantes des enquêtes longitudinales, à savoir l'utilisation de plans d'échantillonnage complexes dans des populations hétérogènes, l'absence ou l'inexactitude des renseignements sur le moment où ont lieu les événements et la possibilité qu'il existe des mécanismes de retrait de l'enquête ou de censure des données qui ne peuvent être ignorés. On considère des méthodes paramétriques et non paramétriques d'estimation et de vérification des modèles. On propose de nouvelles méthodes, ainsi que des méthodes existantes qu'on applique à l'analyse des données sur la durée provenant de l'Enquête sur la dynamique du travail et du revenu (EDTR) réalisée au Canada.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016745
    Description :

    L'attrait du plan expérimental de discontinuité de la régression tient à sa grande similarité avec un plan expérimental normal. Cependant, son applicabilité est limitée, puisqu'il n'est pas très fréquent que les unités soient affectées au groupe subissant le traitement d'après une mesure observable (par l'analyste) avant le programme. En outre, il permet uniquement de déterminer l'effet moyen sur une sous population très spécifique. Dans cet article, on montre que le plan expérimental de discontinuité de la régression peut être généralisé facilement aux cas où l'admissibilité des unités est établie d'après une mesure observable avant le programme et où est permise l'autosélection libre des unités admissibles dans le programme. Ces conditions s'avèrent aussi fort pratiques pour la construction d'un test de spécification sur des estimateurs non expérimentaux conventionnels de l'effet moyen du programme. On décrit explicitement les exigences concernant les données.

    Date de diffusion : 2004-09-13
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (11)

Analyses (11) (0 à 10 de 11 résultats)

  • Articles et rapports : 11-522-X20020016708
    Description :

    Cette étude traite de l'analyse des données d'enquêtes complexes sur la santé par des méthodes de modélisation multivariées. L'étude porte principalement sur diverses méthodes basées sur le plan d'échantillonnage ou basées sur un modèle qui visent à tenir compte de la complexité du plan d'échantillonnage, y compris la mise en grappes, la stratification et la pondération. Les méthodes étudiées incluent la modélisation linéaire généralisée fondée sur la pseudo-méthode de vraisemblance et les équations d'estimations généralisées, les modèles linéaires mixtes estimés par le maximum de vraisemblance restreint et les techniques hiérarchiques bayesiennes basées sur les méthodes de simulation de Monte Carlo d'une chaîne de Markov (MCMC). On compare empiriquement les méthodes sur des données provenant d'une grande enquête comprenant une interview sur la santé et un examen physique réalisés en Finlande en 2000 (Health 2000 Study).

    Les données de la Health 2000 Study ont été recueillies au moyen d'interviews sur place, de questionnaires et d'examens cliniques. L'enquête a été réalisée auprès d'un échantillon en grappes stratifié à deux degrés. Le plan d'échantillonnage comportait des corrélations intra grappes positives pour nombre de variables étudiées. En vue d'une étude plus approfondie, on a choisi un petit nombre de variables tirées des volets de l'interview sur la santé et de l'examen clinique. Dans de nombreux cas, les diverses méthodes ont produit des résultats numériques comparables et appuyés des conclusions statistiques similaires. Celles qui ne tenaient pas compte de la complexité du plan d'échantillonnage ont parfois produit des conclusions contradictoires. On discute aussi de l'application des méthodes lors de l'utilisation de logiciels statistiques standards.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016717
    Description :

    Aux États-Unis, la National Health and Nutrition Examination Survey (NHANES) est couplée à la National Health Interview Survey (NHIS) au niveau de l'unité primaire d'échantillonnage (les mêmes comtés, mais pas nécessairement les mêmes personnes, participent aux deux enquêtes). La NHANES est réalisée auprès d'environ 5 000 personnes par année, tandis que la NHIS l'est auprès d'environ 100 000 personnes par année. Dans cet article, on expose les propriétés de modèles qui permettent d'utiliser les données de la NHIS et des données administratives comme information auxiliaire pour estimer les valeurs des variables étudiées dans le cadre de la NHANES. La méthode, qui est apparentée aux modèles régionaux de Fay Herriot (1979) et aux estimateurs par calage de Deville et Sarndal (1992), tient compte des plans de sondage dans la structure de l'erreur.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016719
    Description :

    Dans cette étude, on examine les méthodes de modélisation utilisées pour les données sur la santé publique. Les spécialistes de la santé publique manifestent un regain d'intérêt pour l'étude des effets de l'environnement sur la santé. Idéalement, les études écologiques ou contextuelles explorent ces liens au moyen de données sur la santé publique étoffées de données sur les caractéristiques environnementales à l'aide de modèles multiniveaux ou hiérarchiques. Dans ces modèles, le premier niveau correspond aux données des personnes sur la santé et le deuxième, aux données des collectivités. La plupart des données sur la santé publique proviennent d'enquêtes à plan d'échantillonnage complexe qui obligent, lors de l'analyse, à tenir compte de la mise en grappes, de la non-réponse et de la post-stratification pour obtenir des estimations représentatives de la prévalence des comportements posant un risque pour la santé.

    Cette étude est basée sur le Behavioral Risk Factor Surveillance System (BRFSS). Il s'agit d'un système américain de surveillance des facteurs de risque pour la santé selon l'État exploité par les Centers for Disease Control and Prevention en vue d'évaluer chaque année les facteurs de risque pour la santé chez plus de 200 000 adultes. Les données du BRFSS sont maintenant produites à l'échelle de la région métropolitaine statistique (MSA pour metropolitan statistical area) et fournissent des données de qualité sur la santé pour les études des effets de l'environnement. Les exigences conjuguées du plan d'échantillonnage et des analyses à plusieurs niveaux compliquent encore davantage les analyses à l'échelle de la MSA combinant les données sur la santé et sur l'environnement.

    On compare trois méthodes de modélisation dans le cadre d'une étude sur l'activité physique et certains facteurs environnementaux à l'aide de données du BRFSS de 2000. Chaque méthode décrite ici est un moyen valide d'analyser des données d'enquête à plan d'échantillonnage complexe complétées de données environnementales, quoique chacune tienne compte de façon différente du plan d'échantillonnage et de la structure multiniveau des données. Ces méthodes conviennent donc à l'étude de questions légèrement différentes.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016727
    Description :

    Les données tirées du recensement sont largement utilisées pour procéder à la répartition et au ciblage des ressources aux échelons national, régional et local. Au Royaume-Uni, un recensement de la population est mené tous les 10 ans. En s'éloignant de la date du recensement, les données du recensement deviennent périmées et moins pertinentes, ce qui rend la répartition des ressources moins équitable. Dans cette étude, on analyse les différentes méthodes pour résoudre ce problème.

    Plusieurs méthodes aréolaires ont été mises au point pour produire des estimations postcensitaires, y compris la technique d'estimation préservant la structure mise au point par Purcell et Kish (1980). Cette étude porte sur la méthode de modélisation linéaire variable pour produire des estimations postcensitaires. On teste la validité de la méthode au moyen de données simulées à partir du registre de population de la Finlande et on applique la technique aux données britanniques pour produire des estimations mises à jour pour plusieurs indicateurs du recensement de 1991.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016730
    Description :

    Une vaste gamme de modèles utilisés dans le domaine de la recherche sociale et économique peuvent être représentés en spécifiant une structure paramétrique pour les covariances des variables observées. L'existence de logiciels tels que LISREL (Jöreskog et Sörbom, 1988) et EQS (Bentler, 1995) a permis d'ajuster ces modèles aux données d'enquêtes dans de nombreuses applications. Dans cet article, on étudie deux inférences au sujet de ce genre de modèle en utilisant des données d'enquêtes à plan d'échantillonnage complexe. On examine les preuves de l'existence de biais d'échantillon fini dans l'estimation des paramètres et les moyens de réduire ces biais (Altonji et Segal, 1996), ainsi que les questions connexes de l'efficacité de l'estimation, de l'estimation de l'erreur type et des tests. On utilise des données longitudinales provenant de la British Household Panel Survey en guise d'illustration. La collecte de ces données étant sujette à l'érosion de l'échantillon, on examine aussi comment utiliser des poids de non réponse dans la modélisation.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016731
    Description :

    En recherche behavioriste, diverses techniques sont utilisées pour prédire les scores des répondants pour des facteurs ou des concepts que l'on ne peut observer directement. La satisfaction concernant l'emploi, le stress au travail, l'aptitude à poursuivre des études de deuxième ou de troisième cycle et les aptitudes mathématiques des enfants en sont des exemples. Les méthodes utilisées couramment pour modéliser ce genre de concepts incluent l'analyse factorielle, la modélisation d'équation structurelle, les échelles psychométriques classiques et la théorie de la réponse à l'item, et, pour chaque méthode, il existe souvent plusieurs stratégies distinctes permettant de produire des scores individuels. Cependant, les chercheurs se satisfont rarement de simples mesures de ces concepts. Souvent, ils utilisent des scores dérivés en tant que variables dépendantes ou indépendantes dans la régression multiple, l'analyse de la variance et de nombreuses autres procédures multivariées. Bien que ces applications de scores dérivés puissent produire des estimations biaisées des paramètres des modèles structuraux, ces difficultés sont mal comprises et souvent ignorées. Nous passerons en revue les publications qui traitent de la question, en mettant l'accent sur les méthodes de la TRI, en vue de déterminer quels sont les domaines problématiques et de formuler des questions à étudier dans l'avenir.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016733
    Description :

    Bien qu'on considère souvent que les recensements et les enquêtes donnent des mesures des populations telles qu'elles sont, la plupart reflètent les renseignements sur les particuliers tels qu'ils étaient au moment où la mesure a été effectuée, voire à un point antérieur dans le temps. Par conséquent, les inférences faites à partir de telles données doivent tenir compte des changements qui surviennent au fil du temps à l'échelle de la population et des particuliers. Dans cet article, on fournit un cadre unique pour ce type de problèmes d'inférence, en l'illustrant au moyen de divers exemples, dont : 1) l'estimation de la situation de résidence le jour du recensement d'après des dossiers administratifs multiples; 2) la combinaison de dossiers administratifs pour estimer la taille de la population des États-Unis; 3) l'utilisation de moyennes mobiles tirées de l'American Community Survey; 4) l'estimation de la prévalence de l'abus des droits de l'homme.

    Plus précisément, à l'échelle de la population, les variables étudiées, telles que la taille ou les caractéristiques moyennes d'une population, pourraient évoluer. Parallèlement, des sujets individuels pourraient rentrer dans le champ de l'étude ou en sortir, ou changer de caractéristiques. Ces changements au fil du temps peuvent avoir des répercussions sur les études statistiques de données gouvernementales qui regroupent des renseignements provenant de sources multiples, y compris des recensements, des enquêtes et des dossiers administratifs, une pratique de plus en plus courante. Les inférences d'après les bases de données fusionnées résultantes dépendent souvent fortement de choix particuliers faits au moment de combiner, de vérifier et d'analyser les données qui reflètent des hypothèses quant à l'évolution ou à la stabilité de la population au fil du temps.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016743
    Description :

    On s'intéresse beaucoup à l'utilisation de données provenant d'enquêtes longitudinales pour comprendre les processus qui surviennent au cours de la vie, comme la scolarité, l'emploi, la fécondité, la santé et le mariage. L'analyse des données sur la durée des épisodes que vivent les personnes dans certains états (par exemple, l'emploi, le mariage) est un des outils principaux de l'étude de ces processus. Cet article porte sur les méthodes d'analyse des données sur la durée qui tiennent compte de caractéristiques importantes des enquêtes longitudinales, à savoir l'utilisation de plans d'échantillonnage complexes dans des populations hétérogènes, l'absence ou l'inexactitude des renseignements sur le moment où ont lieu les événements et la possibilité qu'il existe des mécanismes de retrait de l'enquête ou de censure des données qui ne peuvent être ignorés. On considère des méthodes paramétriques et non paramétriques d'estimation et de vérification des modèles. On propose de nouvelles méthodes, ainsi que des méthodes existantes qu'on applique à l'analyse des données sur la durée provenant de l'Enquête sur la dynamique du travail et du revenu (EDTR) réalisée au Canada.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016745
    Description :

    L'attrait du plan expérimental de discontinuité de la régression tient à sa grande similarité avec un plan expérimental normal. Cependant, son applicabilité est limitée, puisqu'il n'est pas très fréquent que les unités soient affectées au groupe subissant le traitement d'après une mesure observable (par l'analyste) avant le programme. En outre, il permet uniquement de déterminer l'effet moyen sur une sous population très spécifique. Dans cet article, on montre que le plan expérimental de discontinuité de la régression peut être généralisé facilement aux cas où l'admissibilité des unités est établie d'après une mesure observable avant le programme et où est permise l'autosélection libre des unités admissibles dans le programme. Ces conditions s'avèrent aussi fort pratiques pour la construction d'un test de spécification sur des estimateurs non expérimentaux conventionnels de l'effet moyen du programme. On décrit explicitement les exigences concernant les données.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016750
    Description :

    Les analyses de données provenant d'enquêtes sociales et économiques s'appuient parfois sur des modèles à fonction généralisée de la variance pour adoucir la variance due au plan de sondage des estimateurs ponctuels des moyennes et des proportions de population. Les analystes peuvent utiliser les estimations résultantes de l'erreur type pour calculer les intervalles de confiance ou les variables à tester pour les moyennes et les proportions étudiées. Comparativement aux estimateurs de la variance basés sur le plan de sondage calculés directement à partir des microdonnées d'enquête, les modèles à fonction généralisée de la variance peuvent offrir plusieurs avantages. Comme le révèle cette étude, ces avantages sont la simplicité des opérations, une plus grande stabilité des erreurs types et, dans le cas où l'on utilise des ensembles de données à grande diffusion, la réduction des problèmes de limitation de la divulgation des renseignements personnels que pose la grande diffusion d'indicateurs de strates et de grappes.

    Cependant, plusieurs problèmes d'inférence peuvent annuler en partie ces avantages éventuels. Premièrement, les propriétés des statistiques inférentielles fondées sur des fonctions généralisées de la variance (par exemple, le taux de couverture et de largeur des intervalles de confiance) dépendent fortement de l'importance empirique relative des composantes de la variabilité associée, respectivement, à :

    a) la sélection aléatoire d'un sous-ensemble d'items utilisés pour estimer le modèle à fonction généralisée de la variance; b) la sélection d'unités d'échantillonnage conformément à un plan d'échantillonnage complexe; (c) le mauvais ajustement du modèle à fonction généralisée de la variance; d) la génération d'une population finie sous les conditions d'un modèle de superpopulation.

    Deuxièmement, sous certaines conditions, on peut lier chacune des composantes (a) à (d) à diverses mesures empiriques de l'adéquation prédictive d'un modèle à fonction généralisée de la variance. Par conséquent, ces mesures d'adéquation prédictive peuvent fournir certains éclaircissements sur la mesure à laquelle un modèle à fonction généralisée de la variance donné convient à l'inférence dans des applications particulières.

    Enfin, certains tests et diagnostics proposés sont appliqués aux données de la U.S. Survey of Doctoral Recipients et de la U.S. Current Employment Survey. La Survey of Doctoral Recipients s'occupe principalement des composantes (a), (c) et (d), alors que la Current Employment Survey accorde plutôt de l'importance aux composantes (b), (c) et (d). La disponibilité de microdonnées de population permet le développement de modèles particulièrement détaillés pour les composantes (b) et (c).

    Date de diffusion : 2004-09-13
Références (1)

Références (1) ((1 résultat))

  • Enquêtes et programmes statistiques — Documentation : 12-002-X20040027035
    Description :

    Lors du traitement des données du cycle 4 de l'Enquête longitudinale nationale sur les enfants et les jeunes (ELNEJ), des révisions historiques ont été apportées au trois premiers cycles de l'enquête afin de corriger des erreurs et faire une mise à jour des données. Au cours du traitement, une attention particulière a été portée à la variable PERSRUK (l'identificateur au niveau de la personne) et à la variable FIELDRUK (l'identificateur au niveau du ménage). Le même niveau d'attention n'a pas été accordé aux autres identificateurs incluent dans la base de données, soit, la variable CHILDID (un identificateur au niveau de l'enfant) et la variable _IDHD01 (un identificateur au niveau du ménage). Ces identificateurs ont été créés pour les fichiers publics et ils se retrouvent par défaut dans les fichiers maîtres. Lorsque les fichiers maîtres sont utilisés, la variable PERSRUK devrait être utilisée pour lier les différents fichiers de données de l'enquête entre eux et la variable FIELDRUK pour déterminer le ménage.

    Date de diffusion : 2004-10-05
Date de modification :