Inférence et fondements

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Type

1 facets displayed. 1 facets selected.

Géographie

1 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (92)

Tout (92) (60 à 70 de 92 résultats)

  • Articles et rapports : 11-522-X20020016733
    Description :

    Bien qu'on considère souvent que les recensements et les enquêtes donnent des mesures des populations telles qu'elles sont, la plupart reflètent les renseignements sur les particuliers tels qu'ils étaient au moment où la mesure a été effectuée, voire à un point antérieur dans le temps. Par conséquent, les inférences faites à partir de telles données doivent tenir compte des changements qui surviennent au fil du temps à l'échelle de la population et des particuliers. Dans cet article, on fournit un cadre unique pour ce type de problèmes d'inférence, en l'illustrant au moyen de divers exemples, dont : 1) l'estimation de la situation de résidence le jour du recensement d'après des dossiers administratifs multiples; 2) la combinaison de dossiers administratifs pour estimer la taille de la population des États-Unis; 3) l'utilisation de moyennes mobiles tirées de l'American Community Survey; 4) l'estimation de la prévalence de l'abus des droits de l'homme.

    Plus précisément, à l'échelle de la population, les variables étudiées, telles que la taille ou les caractéristiques moyennes d'une population, pourraient évoluer. Parallèlement, des sujets individuels pourraient rentrer dans le champ de l'étude ou en sortir, ou changer de caractéristiques. Ces changements au fil du temps peuvent avoir des répercussions sur les études statistiques de données gouvernementales qui regroupent des renseignements provenant de sources multiples, y compris des recensements, des enquêtes et des dossiers administratifs, une pratique de plus en plus courante. Les inférences d'après les bases de données fusionnées résultantes dépendent souvent fortement de choix particuliers faits au moment de combiner, de vérifier et d'analyser les données qui reflètent des hypothèses quant à l'évolution ou à la stabilité de la population au fil du temps.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016743
    Description :

    On s'intéresse beaucoup à l'utilisation de données provenant d'enquêtes longitudinales pour comprendre les processus qui surviennent au cours de la vie, comme la scolarité, l'emploi, la fécondité, la santé et le mariage. L'analyse des données sur la durée des épisodes que vivent les personnes dans certains états (par exemple, l'emploi, le mariage) est un des outils principaux de l'étude de ces processus. Cet article porte sur les méthodes d'analyse des données sur la durée qui tiennent compte de caractéristiques importantes des enquêtes longitudinales, à savoir l'utilisation de plans d'échantillonnage complexes dans des populations hétérogènes, l'absence ou l'inexactitude des renseignements sur le moment où ont lieu les événements et la possibilité qu'il existe des mécanismes de retrait de l'enquête ou de censure des données qui ne peuvent être ignorés. On considère des méthodes paramétriques et non paramétriques d'estimation et de vérification des modèles. On propose de nouvelles méthodes, ainsi que des méthodes existantes qu'on applique à l'analyse des données sur la durée provenant de l'Enquête sur la dynamique du travail et du revenu (EDTR) réalisée au Canada.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016745
    Description :

    L'attrait du plan expérimental de discontinuité de la régression tient à sa grande similarité avec un plan expérimental normal. Cependant, son applicabilité est limitée, puisqu'il n'est pas très fréquent que les unités soient affectées au groupe subissant le traitement d'après une mesure observable (par l'analyste) avant le programme. En outre, il permet uniquement de déterminer l'effet moyen sur une sous population très spécifique. Dans cet article, on montre que le plan expérimental de discontinuité de la régression peut être généralisé facilement aux cas où l'admissibilité des unités est établie d'après une mesure observable avant le programme et où est permise l'autosélection libre des unités admissibles dans le programme. Ces conditions s'avèrent aussi fort pratiques pour la construction d'un test de spécification sur des estimateurs non expérimentaux conventionnels de l'effet moyen du programme. On décrit explicitement les exigences concernant les données.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016750
    Description :

    Les analyses de données provenant d'enquêtes sociales et économiques s'appuient parfois sur des modèles à fonction généralisée de la variance pour adoucir la variance due au plan de sondage des estimateurs ponctuels des moyennes et des proportions de population. Les analystes peuvent utiliser les estimations résultantes de l'erreur type pour calculer les intervalles de confiance ou les variables à tester pour les moyennes et les proportions étudiées. Comparativement aux estimateurs de la variance basés sur le plan de sondage calculés directement à partir des microdonnées d'enquête, les modèles à fonction généralisée de la variance peuvent offrir plusieurs avantages. Comme le révèle cette étude, ces avantages sont la simplicité des opérations, une plus grande stabilité des erreurs types et, dans le cas où l'on utilise des ensembles de données à grande diffusion, la réduction des problèmes de limitation de la divulgation des renseignements personnels que pose la grande diffusion d'indicateurs de strates et de grappes.

    Cependant, plusieurs problèmes d'inférence peuvent annuler en partie ces avantages éventuels. Premièrement, les propriétés des statistiques inférentielles fondées sur des fonctions généralisées de la variance (par exemple, le taux de couverture et de largeur des intervalles de confiance) dépendent fortement de l'importance empirique relative des composantes de la variabilité associée, respectivement, à :

    a) la sélection aléatoire d'un sous-ensemble d'items utilisés pour estimer le modèle à fonction généralisée de la variance; b) la sélection d'unités d'échantillonnage conformément à un plan d'échantillonnage complexe; (c) le mauvais ajustement du modèle à fonction généralisée de la variance; d) la génération d'une population finie sous les conditions d'un modèle de superpopulation.

    Deuxièmement, sous certaines conditions, on peut lier chacune des composantes (a) à (d) à diverses mesures empiriques de l'adéquation prédictive d'un modèle à fonction généralisée de la variance. Par conséquent, ces mesures d'adéquation prédictive peuvent fournir certains éclaircissements sur la mesure à laquelle un modèle à fonction généralisée de la variance donné convient à l'inférence dans des applications particulières.

    Enfin, certains tests et diagnostics proposés sont appliqués aux données de la U.S. Survey of Doctoral Recipients et de la U.S. Current Employment Survey. La Survey of Doctoral Recipients s'occupe principalement des composantes (a), (c) et (d), alors que la Current Employment Survey accorde plutôt de l'importance aux composantes (b), (c) et (d). La disponibilité de microdonnées de population permet le développement de modèles particulièrement détaillés pour les composantes (b) et (c).

    Date de diffusion : 2004-09-13

  • Articles et rapports : 12-001-X20030026785
    Description :

    L'une des méthodes permettant d'éviter les divulgations consiste à diffuser des ensembles de microdonnées à grande diffusion partiellement synthétiques. Ces ensembles comprennent les unités enquêtés au départ, mais certaines valeurs recueillies, comme celles de nature délicate présentant un haut risque de divulgation ou celles d'identificateurs clés, sont remplacées par des imputations multiples. Bien qu'on recoure à l'heure actuelle à des approches partiellement synthétiques pour protéger les données à grande diffusion, on ne les a pas encore assorties de méthodes d'inférence valides. Le présent article décrit de telles méthodes. Elles sont fondées sur les concepts de l'imputation multiple en vue de remplacer des données manquantes, mais s'appuient sur des règles différentes pour combiner les estimations ponctuelles et les estimations de la variance. Ces règles de combinaison diffèrent aussi de celles élaborées par Raghunathan, Reiter et Rubin (2003) pour les ensembles de données entièrement synthétiques. La validité de ces nouvelles règles est illustrée au moyen d'études par simulation.

    Date de diffusion : 2004-01-27

  • Articles et rapports : 12-001-X20030016610
    Description :

    En présence de non-réponse partielle, en pratique, on recourt souvent à des méthodes d'imputation non pondérée, mais celles-ci produisent généralement des estimateurs biaisés sous l'hypothèse d'une réponse uniforme à l'intérieur des classes d'imputation. En nous inspirant de Skinner et Rao (2002), nous proposons un estimateur corrigé pour le biais d'une moyenne de population sous imputation par le ratio non pondérée et sous imputation aléatoire hot-deck, et nous calculons des estimateurs de la variance par linéarisation. Nous réalisons une petite étude en simulation pour évaluer les propriétés de biais et d'erreur quadratique moyenne des estimateurs obtenus. Nous étudions aussi le biais relatif et la stabilité relative des estimateurs de la variance.

    Date de diffusion : 2003-07-31

  • Articles et rapports : 92F0138M2003002
    Description :

    Le présent document de travail, qui décrit les régions métropolitaines de recensement et les agglomérations de recensement provisoires pour le Recensement de 2006, est présenté aux fins de recueillir les commentaires des utilisateurs. Il décrit brièvement les facteurs qui ont mené à la modification de certaines régions métropolitaines de recensement et agglomérations de recensement, et comprend des tableaux et des cartes qui énumèrent et illustrent les changements apportés à leurs limites et aux subdivisions de recensement composantes.

    Date de diffusion : 2003-07-11

  • Articles et rapports : 92F0138M2003001
    Description :

    L'objectif de ce document de travail est d'évaluer dans quelle mesure la méthode actuelle dont se sert le Canada pour délimiter les régions métropolitaines de recensement (RMR) et les agglomérations de recensement (AR) reflète bien la nature métropolitaine de ces régions géographiques selon les installations et les services qu'elles offrent. En appliquant un modèle fonctionnel aux RMR et aux AR de Statistique Canada, on peut évaluer l'efficacité de la méthode de délimitation du Canada.

    À la suite de la recherche faite pour ce document de travail, Statistique Canada a proposé d'abaisser le seuil de population du noyau urbain utilisé pour définir une RMR : une AR deviendra une RMR si sa population totale atteint 100 000 habitants et que 50 000 de ceux-ci résident dans le noyau urbain. On a consulté les utilisateurs à ce sujet à l'automne 2002. Cela faisait partie du processus de détermination du contenu du recensement de 2006.

    Date de diffusion : 2003-03-31

  • Articles et rapports : 11F0019M2003199
    Géographie : Canada
    Description :

    À l'aide d'un échantillon national représentatif d'établissements, nous avons cherché à déterminer si l'adoption de certaines pratiques de travail équivalentes (PTE) a tendance à réduire le taux de démissions. Dans l'ensemble, notre analyse fournit des preuves solides d'une association négative entre l'adoption de certaines PTE et le taux de démissions, pour les établissements comptant plus de dix employés du secteur des services hautement spécialisés. Nous dégageons aussi certaines preuves d'une association négative pour le secteur des services peu spécialisés. Cependant, la force de cette association négative diminue considérablement lorsque nous ajoutons un indicateur précisant si l'établissement a adopté ou non une politique officielle de partage de l'information. Dans le secteur de la fabrication, les preuves d'une association négative sont faibles. Bien que les établissements ayant des groupes de travail autonomes aient affiché un taux de démissions plus faible que les autres, aucun ensemble de pratiques de travail étudié n'a d'effet négatif et statistiquement significatif sur ce taux. Nous émettons l'hypothèse que les PTE clés peuvent réduire davantage le roulement de la main-d'oeuvre dans des environnements techniquement complexes que dans des environnements requérant peu de compétences.

    Date de diffusion : 2003-03-17

  • Articles et rapports : 12-001-X20020026428
    Description :

    L'analyse des données d'enquête de différentes régions géographiques dont les données de chaque région sont polychotomiques se fait facilement au moyen de modèles bayesiens hiérarchiques, même s'il y a des cellules présentant des petits nombres pour certaines de ces régions. Cela pose toutefois un problème quand les données d'enquête sont incomplètes en raison de la non-réponse, en particulier quand les caractéristiques des répondants diffèrent de celles des non-répondants. En présence de non-réponse, on applique la méthode de sélection pour l'estimation parce qu'elle permet de procéder à des inférences à l'égard de tous les paramètres. En fait, on décrit un modèle bayesien hiérarchique pour l'analyse des données de la non-réponse multinomiale dont on ne peut faire abstraction dans diverses régions géographiques, puisque certaines données peuvent être de petite taille. Comme modèle, on utilise une densité à priori Dirichlet pour les probabilités multinomiales et une densité à priori bêta pour les probabilités de réponse. Ainsi, on peut faire un emprunt d'information auprès des grandes régions, dans le but d'améliorer la fiabilité des estimations des paramètres du modèle qui s'appliquent aux petites régions. Comme la densité conjointe à posteriori de tous les paramètres est complexe, l'inférence se fonde sur l'échantillonnage et on utilise la méthode de Monte Carlo à chaînes de Markov. On applique la méthode pour obtenir une analyse des données sur l'indice de masse corporelle (IMC) tirées de la troisième édition de la National Health and Nutrition Examination Survey (NHANES III). Pour faciliter la compréhension, l'IMC est classé selon 3 niveaux naturels pour chacun des 8 domaines regroupant âge-race-sexe et des 34 comtés. On évalue le rendement du modèle à partir des données de la NHANES III et d'exemples simulés qui montrent que le modèle fonctionne passablement bien.

    Date de diffusion : 2003-01-29
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (92)

Analyses (92) (60 à 70 de 92 résultats)

  • Articles et rapports : 11-522-X20020016733
    Description :

    Bien qu'on considère souvent que les recensements et les enquêtes donnent des mesures des populations telles qu'elles sont, la plupart reflètent les renseignements sur les particuliers tels qu'ils étaient au moment où la mesure a été effectuée, voire à un point antérieur dans le temps. Par conséquent, les inférences faites à partir de telles données doivent tenir compte des changements qui surviennent au fil du temps à l'échelle de la population et des particuliers. Dans cet article, on fournit un cadre unique pour ce type de problèmes d'inférence, en l'illustrant au moyen de divers exemples, dont : 1) l'estimation de la situation de résidence le jour du recensement d'après des dossiers administratifs multiples; 2) la combinaison de dossiers administratifs pour estimer la taille de la population des États-Unis; 3) l'utilisation de moyennes mobiles tirées de l'American Community Survey; 4) l'estimation de la prévalence de l'abus des droits de l'homme.

    Plus précisément, à l'échelle de la population, les variables étudiées, telles que la taille ou les caractéristiques moyennes d'une population, pourraient évoluer. Parallèlement, des sujets individuels pourraient rentrer dans le champ de l'étude ou en sortir, ou changer de caractéristiques. Ces changements au fil du temps peuvent avoir des répercussions sur les études statistiques de données gouvernementales qui regroupent des renseignements provenant de sources multiples, y compris des recensements, des enquêtes et des dossiers administratifs, une pratique de plus en plus courante. Les inférences d'après les bases de données fusionnées résultantes dépendent souvent fortement de choix particuliers faits au moment de combiner, de vérifier et d'analyser les données qui reflètent des hypothèses quant à l'évolution ou à la stabilité de la population au fil du temps.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016743
    Description :

    On s'intéresse beaucoup à l'utilisation de données provenant d'enquêtes longitudinales pour comprendre les processus qui surviennent au cours de la vie, comme la scolarité, l'emploi, la fécondité, la santé et le mariage. L'analyse des données sur la durée des épisodes que vivent les personnes dans certains états (par exemple, l'emploi, le mariage) est un des outils principaux de l'étude de ces processus. Cet article porte sur les méthodes d'analyse des données sur la durée qui tiennent compte de caractéristiques importantes des enquêtes longitudinales, à savoir l'utilisation de plans d'échantillonnage complexes dans des populations hétérogènes, l'absence ou l'inexactitude des renseignements sur le moment où ont lieu les événements et la possibilité qu'il existe des mécanismes de retrait de l'enquête ou de censure des données qui ne peuvent être ignorés. On considère des méthodes paramétriques et non paramétriques d'estimation et de vérification des modèles. On propose de nouvelles méthodes, ainsi que des méthodes existantes qu'on applique à l'analyse des données sur la durée provenant de l'Enquête sur la dynamique du travail et du revenu (EDTR) réalisée au Canada.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016745
    Description :

    L'attrait du plan expérimental de discontinuité de la régression tient à sa grande similarité avec un plan expérimental normal. Cependant, son applicabilité est limitée, puisqu'il n'est pas très fréquent que les unités soient affectées au groupe subissant le traitement d'après une mesure observable (par l'analyste) avant le programme. En outre, il permet uniquement de déterminer l'effet moyen sur une sous population très spécifique. Dans cet article, on montre que le plan expérimental de discontinuité de la régression peut être généralisé facilement aux cas où l'admissibilité des unités est établie d'après une mesure observable avant le programme et où est permise l'autosélection libre des unités admissibles dans le programme. Ces conditions s'avèrent aussi fort pratiques pour la construction d'un test de spécification sur des estimateurs non expérimentaux conventionnels de l'effet moyen du programme. On décrit explicitement les exigences concernant les données.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016750
    Description :

    Les analyses de données provenant d'enquêtes sociales et économiques s'appuient parfois sur des modèles à fonction généralisée de la variance pour adoucir la variance due au plan de sondage des estimateurs ponctuels des moyennes et des proportions de population. Les analystes peuvent utiliser les estimations résultantes de l'erreur type pour calculer les intervalles de confiance ou les variables à tester pour les moyennes et les proportions étudiées. Comparativement aux estimateurs de la variance basés sur le plan de sondage calculés directement à partir des microdonnées d'enquête, les modèles à fonction généralisée de la variance peuvent offrir plusieurs avantages. Comme le révèle cette étude, ces avantages sont la simplicité des opérations, une plus grande stabilité des erreurs types et, dans le cas où l'on utilise des ensembles de données à grande diffusion, la réduction des problèmes de limitation de la divulgation des renseignements personnels que pose la grande diffusion d'indicateurs de strates et de grappes.

    Cependant, plusieurs problèmes d'inférence peuvent annuler en partie ces avantages éventuels. Premièrement, les propriétés des statistiques inférentielles fondées sur des fonctions généralisées de la variance (par exemple, le taux de couverture et de largeur des intervalles de confiance) dépendent fortement de l'importance empirique relative des composantes de la variabilité associée, respectivement, à :

    a) la sélection aléatoire d'un sous-ensemble d'items utilisés pour estimer le modèle à fonction généralisée de la variance; b) la sélection d'unités d'échantillonnage conformément à un plan d'échantillonnage complexe; (c) le mauvais ajustement du modèle à fonction généralisée de la variance; d) la génération d'une population finie sous les conditions d'un modèle de superpopulation.

    Deuxièmement, sous certaines conditions, on peut lier chacune des composantes (a) à (d) à diverses mesures empiriques de l'adéquation prédictive d'un modèle à fonction généralisée de la variance. Par conséquent, ces mesures d'adéquation prédictive peuvent fournir certains éclaircissements sur la mesure à laquelle un modèle à fonction généralisée de la variance donné convient à l'inférence dans des applications particulières.

    Enfin, certains tests et diagnostics proposés sont appliqués aux données de la U.S. Survey of Doctoral Recipients et de la U.S. Current Employment Survey. La Survey of Doctoral Recipients s'occupe principalement des composantes (a), (c) et (d), alors que la Current Employment Survey accorde plutôt de l'importance aux composantes (b), (c) et (d). La disponibilité de microdonnées de population permet le développement de modèles particulièrement détaillés pour les composantes (b) et (c).

    Date de diffusion : 2004-09-13

  • Articles et rapports : 12-001-X20030026785
    Description :

    L'une des méthodes permettant d'éviter les divulgations consiste à diffuser des ensembles de microdonnées à grande diffusion partiellement synthétiques. Ces ensembles comprennent les unités enquêtés au départ, mais certaines valeurs recueillies, comme celles de nature délicate présentant un haut risque de divulgation ou celles d'identificateurs clés, sont remplacées par des imputations multiples. Bien qu'on recoure à l'heure actuelle à des approches partiellement synthétiques pour protéger les données à grande diffusion, on ne les a pas encore assorties de méthodes d'inférence valides. Le présent article décrit de telles méthodes. Elles sont fondées sur les concepts de l'imputation multiple en vue de remplacer des données manquantes, mais s'appuient sur des règles différentes pour combiner les estimations ponctuelles et les estimations de la variance. Ces règles de combinaison diffèrent aussi de celles élaborées par Raghunathan, Reiter et Rubin (2003) pour les ensembles de données entièrement synthétiques. La validité de ces nouvelles règles est illustrée au moyen d'études par simulation.

    Date de diffusion : 2004-01-27

  • Articles et rapports : 12-001-X20030016610
    Description :

    En présence de non-réponse partielle, en pratique, on recourt souvent à des méthodes d'imputation non pondérée, mais celles-ci produisent généralement des estimateurs biaisés sous l'hypothèse d'une réponse uniforme à l'intérieur des classes d'imputation. En nous inspirant de Skinner et Rao (2002), nous proposons un estimateur corrigé pour le biais d'une moyenne de population sous imputation par le ratio non pondérée et sous imputation aléatoire hot-deck, et nous calculons des estimateurs de la variance par linéarisation. Nous réalisons une petite étude en simulation pour évaluer les propriétés de biais et d'erreur quadratique moyenne des estimateurs obtenus. Nous étudions aussi le biais relatif et la stabilité relative des estimateurs de la variance.

    Date de diffusion : 2003-07-31

  • Articles et rapports : 92F0138M2003002
    Description :

    Le présent document de travail, qui décrit les régions métropolitaines de recensement et les agglomérations de recensement provisoires pour le Recensement de 2006, est présenté aux fins de recueillir les commentaires des utilisateurs. Il décrit brièvement les facteurs qui ont mené à la modification de certaines régions métropolitaines de recensement et agglomérations de recensement, et comprend des tableaux et des cartes qui énumèrent et illustrent les changements apportés à leurs limites et aux subdivisions de recensement composantes.

    Date de diffusion : 2003-07-11

  • Articles et rapports : 92F0138M2003001
    Description :

    L'objectif de ce document de travail est d'évaluer dans quelle mesure la méthode actuelle dont se sert le Canada pour délimiter les régions métropolitaines de recensement (RMR) et les agglomérations de recensement (AR) reflète bien la nature métropolitaine de ces régions géographiques selon les installations et les services qu'elles offrent. En appliquant un modèle fonctionnel aux RMR et aux AR de Statistique Canada, on peut évaluer l'efficacité de la méthode de délimitation du Canada.

    À la suite de la recherche faite pour ce document de travail, Statistique Canada a proposé d'abaisser le seuil de population du noyau urbain utilisé pour définir une RMR : une AR deviendra une RMR si sa population totale atteint 100 000 habitants et que 50 000 de ceux-ci résident dans le noyau urbain. On a consulté les utilisateurs à ce sujet à l'automne 2002. Cela faisait partie du processus de détermination du contenu du recensement de 2006.

    Date de diffusion : 2003-03-31

  • Articles et rapports : 11F0019M2003199
    Géographie : Canada
    Description :

    À l'aide d'un échantillon national représentatif d'établissements, nous avons cherché à déterminer si l'adoption de certaines pratiques de travail équivalentes (PTE) a tendance à réduire le taux de démissions. Dans l'ensemble, notre analyse fournit des preuves solides d'une association négative entre l'adoption de certaines PTE et le taux de démissions, pour les établissements comptant plus de dix employés du secteur des services hautement spécialisés. Nous dégageons aussi certaines preuves d'une association négative pour le secteur des services peu spécialisés. Cependant, la force de cette association négative diminue considérablement lorsque nous ajoutons un indicateur précisant si l'établissement a adopté ou non une politique officielle de partage de l'information. Dans le secteur de la fabrication, les preuves d'une association négative sont faibles. Bien que les établissements ayant des groupes de travail autonomes aient affiché un taux de démissions plus faible que les autres, aucun ensemble de pratiques de travail étudié n'a d'effet négatif et statistiquement significatif sur ce taux. Nous émettons l'hypothèse que les PTE clés peuvent réduire davantage le roulement de la main-d'oeuvre dans des environnements techniquement complexes que dans des environnements requérant peu de compétences.

    Date de diffusion : 2003-03-17

  • Articles et rapports : 12-001-X20020026428
    Description :

    L'analyse des données d'enquête de différentes régions géographiques dont les données de chaque région sont polychotomiques se fait facilement au moyen de modèles bayesiens hiérarchiques, même s'il y a des cellules présentant des petits nombres pour certaines de ces régions. Cela pose toutefois un problème quand les données d'enquête sont incomplètes en raison de la non-réponse, en particulier quand les caractéristiques des répondants diffèrent de celles des non-répondants. En présence de non-réponse, on applique la méthode de sélection pour l'estimation parce qu'elle permet de procéder à des inférences à l'égard de tous les paramètres. En fait, on décrit un modèle bayesien hiérarchique pour l'analyse des données de la non-réponse multinomiale dont on ne peut faire abstraction dans diverses régions géographiques, puisque certaines données peuvent être de petite taille. Comme modèle, on utilise une densité à priori Dirichlet pour les probabilités multinomiales et une densité à priori bêta pour les probabilités de réponse. Ainsi, on peut faire un emprunt d'information auprès des grandes régions, dans le but d'améliorer la fiabilité des estimations des paramètres du modèle qui s'appliquent aux petites régions. Comme la densité conjointe à posteriori de tous les paramètres est complexe, l'inférence se fonde sur l'échantillonnage et on utilise la méthode de Monte Carlo à chaînes de Markov. On applique la méthode pour obtenir une analyse des données sur l'indice de masse corporelle (IMC) tirées de la troisième édition de la National Health and Nutrition Examination Survey (NHANES III). Pour faciliter la compréhension, l'IMC est classé selon 3 niveaux naturels pour chacun des 8 domaines regroupant âge-race-sexe et des 34 comtés. On évalue le rendement du modèle à partir des données de la NHANES III et d'exemples simulés qui montrent que le modèle fonctionne passablement bien.

    Date de diffusion : 2003-01-29
Références (0)

Références (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :