Filtrer les résultats par

Search Help
Currently selected filters that can be removed

Mot(s)-clé(s)

Année de publication

5 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (6)

Tout (6) ((6 results))

  • Articles et rapports : 12-001-X200900110883
    Description :

    Nous appliquons une méthode bayésienne pour résoudre le problème des solutions limites de l'estimation du maximum de vraisemblance (MV) dans un tableau de contingence à double entrée incomplet en utilisant un modèle log-linéaire et des lois a priori de Dirichlet. Nous comparons cinq lois a priori de Dirichlet pour estimer les probabilités multinomiales par case sous un modèle de non réponse non ignorable. Trois de ces lois a priori ont été utilisées dans le cas d'un tableau à simple entrée incomplet et les deux autres sont deux nouvelles lois a priori proposées afin de tenir compte de la différence entre les profils de réponse des répondants et des électeurs indécis. Les estimations bayésiennes obtenues à l'aide des trois premières lois a priori n'ont pas systématiquement de meilleures propriétés que les estimations du MV, contrairement à ce qu'indiquaient des études antérieures, tandis que les deux nouvelles lois a priori donnent de meilleurs résultats que les trois lois a priori antérieures et que les estimations du MV chaque fois qu'est obtenue une solution limite. Nous utilisons quatre jeux de données provenant des sondages électoraux réalisés en 1998 dans l'État de l'Ohio pour illustrer comment il convient d'utiliser et d'interpréter les résultats des estimations pour les élections. Nous procédons à des études par simulation pour comparer les propriétés de cinq estimations bayésiennes sous un modèle de non réponse non ignorable.

    Date de diffusion : 2009-06-22

  • Articles et rapports : 12-001-X200800110606
    Description :

    Aux États Unis, les données provenant des sondages électoraux sont habituellement présentées dans des tableaux de contingence à double entrée et de nombreux sondages sont réalisés avant qu'ait lieu l'élection réelle en novembre. Par exemple, pour l'élection du gouverneur de l'État de l'Ohio en 1998, trois sondages (Buckeye State Poll) ont eu lieu, un en janvier, un en avril et un en octobre; la première catégorie des tableaux représente les candidats (par exemple Fisher, Taft et autre) et la deuxième représente l'intention courante de vote (votera vraisemblablement ou ne votera vraisemblablement pas pour le gouverneur de l'Ohio). Le nombre d'électeurs indécis est important dans l'une ou dans les deux catégories pour les trois sondages et nous utilisons une méthode bayésienne pour les répartir entre les trois candidats. Nous pouvons ainsi modéliser divers scénarios de données manquantes sous les hypothèses d'ignorabilité et de non ignorabilité, et nous utilisons un modèle Dirichlet Multinomial pour estimer les probabilités de cellule qui nous aideront à prédire le gagnant. Nous proposons un modèle de non réponse non ignorable variable en fonction du temps pour les trois tableaux. Ici, un modèle de non réponse non ignorable est centré sur un modèle de non réponse ignorable afin d'induire une certaine souplesse et une certaine incertitude au sujet de l'ignorabilité ou de la non ignorabilité. Nous considérons également deux autres modèles concurrents, à savoir un modèle de non réponse ignorable et un modèle de non réponse non ignorable. Ces deux derniers modèles reposent sur l'hypothèse d'un processus stochastique commun pour obtenir un renforcement par emprunt de données au cours du temps. Nous utilisons des méthodes de Monte Carlo par chaîne de Markov pour ajuster les modèles. Nous construisons aussi un paramètre qui peut éventuellement être utilisé pour prédire le gagnant parmi les candidats à l'élection de novembre.

    Date de diffusion : 2008-06-26

  • Articles et rapports : 11-522-X200600110392
    Description :

    Nous suivons une méthode bayésienne robuste pour analyser des données pouvant présenter un biais de non-réponse et un biais de sélection non ignorables. Nous utilisons un modèle de régression logistique robuste pour établir le lien entre les indicateurs de réponse (variable aléatoire de Bernoulli) et les covariables, dont nous disposons pour tous les membres de la population finie. Ce lien permet d'expliquer l'écart entre les répondants et les non-répondants de l'échantillon. Nous obtenons ce modèle robuste en élargissant le modèle de régression logistique conventionnel à un mélange de lois de Student, ce qui nous fournit des scores de propension (probabilité de sélection) que nous utilisons pour construire des cellules d'ajustement. Nous introduisons les valeurs des non-répondants en tirant un échantillon aléatoire à partir d'un estimateur à noyau de la densité, formé d'après les valeurs des répondants à l'intérieur des cellules d'ajustement. La prédiction fait appel à une régression linéaire spline, fondée sur les rangs, de la variable de réponse sur les covariables selon le domaine, en échantillonnant les erreurs à partir d'un autre estimateur à noyau de la densité, ce qui rend notre méthode encore plus robuste. Nous utilisons des méthodes de Monte-Carlo par chaînes de Markov (MCMC) pour ajuster notre modèle. Dans chaque sous-domaine, nous obtenons la loi a posteriori d'un quantile de la variable de réponse à l'intérieur de chaque sous-domaine en utilisant les statistiques d'ordre sur l'ensemble des individus (échantillonnés et non échantillonnés). Nous comparons notre méthode robuste à des méthodes paramétriques proposées récemment.

    Date de diffusion : 2008-03-17

  • Articles et rapports : 12-001-X20050029048
    Description :

    Le problème que nous considérons nécessite l'analyse de données catégoriques provenant d'un seul tableau à double entrée avec classification partielle (c'est à dire avec non réponses partielle et totale). Nous supposons qu'il s'agit de la seule information disponible. Une méthode bayésienne nous permet de modéliser divers scénarios de données manquantes sous les hypothèses d'ignorabilité et de non ignorabilité. Nous construisons un modèle de non réponse non ignorable que nous obtenons par extension du modèle de non réponse ignorable au moyen d'une loi a priori dépendante des données; l'extension au modèle de non réponse non ignorable rend le modèle de non réponse ignorable plus robuste. Nous utilisons un modèle Dirichlet Multinomial, corrigé pour la non réponse, pour estimer les probabilités de cellule et un facteur de Bayes pour vérifier l'hypothèse d'association. Nous illustrons notre méthode à l'aide de données sur la densité minérale osseuse et sur le revenu familial. Une analyse de sensibilité nous permet d'évaluer l'effet du choix de la loi a priori dépendante des données. Nous comparons les modèles de non réponse ignorable et non ignorable au moyen d'une étude par simulation et constatons qu'il existe des différences subtiles entre ces modèles.

    Date de diffusion : 2006-02-17

  • Articles et rapports : 12-001-X20050018089
    Description :

    Nous utilisons des modèles hiérarchiques bayésiens pour analyser les données sur l'indice de masse corporelle (IMC) des enfants et des adolescents en présence de non réponse non-ignorable, c'est-à-dire informative, tirées de la troisième National Health and Nutrition Examination Survey (NHANES III). Notre objectif est de prédire l'IMC moyen en population finie et la proportion de répondants pour les domaines formés par l'âge, la race et le sexe (covariables dans les modèles de régression) pour chacun des 35 grands comtés, en tenant compte des non répondants. Nous utilisons des méthodes de Monte Carlo par chaîne de Markov pour ajuster les modèles (deux modèles de sélection et deux modèles de mélange de schémas d'observation) aux données sur l'IMC provenant de la NHANES III. Au moyen d'une mesure de déviance et d'une étude de validation croisée, nous montrons que le modèle de sélection sous non réponse non-ignorable est le meilleur des quatre modèles. Nous montrons aussi que l'inférence au sujet de l'IMC n'est pas trop sensible au choix du modèle. Nous obtenons une amélioration en incluant une régression spline dans le modèle de sélection pour tenir compte de l'évolution de la relation entre l'IMC et l'âge.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20020026428
    Description :

    L'analyse des données d'enquête de différentes régions géographiques dont les données de chaque région sont polychotomiques se fait facilement au moyen de modèles bayesiens hiérarchiques, même s'il y a des cellules présentant des petits nombres pour certaines de ces régions. Cela pose toutefois un problème quand les données d'enquête sont incomplètes en raison de la non-réponse, en particulier quand les caractéristiques des répondants diffèrent de celles des non-répondants. En présence de non-réponse, on applique la méthode de sélection pour l'estimation parce qu'elle permet de procéder à des inférences à l'égard de tous les paramètres. En fait, on décrit un modèle bayesien hiérarchique pour l'analyse des données de la non-réponse multinomiale dont on ne peut faire abstraction dans diverses régions géographiques, puisque certaines données peuvent être de petite taille. Comme modèle, on utilise une densité à priori Dirichlet pour les probabilités multinomiales et une densité à priori bêta pour les probabilités de réponse. Ainsi, on peut faire un emprunt d'information auprès des grandes régions, dans le but d'améliorer la fiabilité des estimations des paramètres du modèle qui s'appliquent aux petites régions. Comme la densité conjointe à posteriori de tous les paramètres est complexe, l'inférence se fonde sur l'échantillonnage et on utilise la méthode de Monte Carlo à chaînes de Markov. On applique la méthode pour obtenir une analyse des données sur l'indice de masse corporelle (IMC) tirées de la troisième édition de la National Health and Nutrition Examination Survey (NHANES III). Pour faciliter la compréhension, l'IMC est classé selon 3 niveaux naturels pour chacun des 8 domaines regroupant âge-race-sexe et des 34 comtés. On évalue le rendement du modèle à partir des données de la NHANES III et d'exemples simulés qui montrent que le modèle fonctionne passablement bien.

    Date de diffusion : 2003-01-29
Articles et rapports (6)

Articles et rapports (6) ((6 results))

  • Articles et rapports : 12-001-X200900110883
    Description :

    Nous appliquons une méthode bayésienne pour résoudre le problème des solutions limites de l'estimation du maximum de vraisemblance (MV) dans un tableau de contingence à double entrée incomplet en utilisant un modèle log-linéaire et des lois a priori de Dirichlet. Nous comparons cinq lois a priori de Dirichlet pour estimer les probabilités multinomiales par case sous un modèle de non réponse non ignorable. Trois de ces lois a priori ont été utilisées dans le cas d'un tableau à simple entrée incomplet et les deux autres sont deux nouvelles lois a priori proposées afin de tenir compte de la différence entre les profils de réponse des répondants et des électeurs indécis. Les estimations bayésiennes obtenues à l'aide des trois premières lois a priori n'ont pas systématiquement de meilleures propriétés que les estimations du MV, contrairement à ce qu'indiquaient des études antérieures, tandis que les deux nouvelles lois a priori donnent de meilleurs résultats que les trois lois a priori antérieures et que les estimations du MV chaque fois qu'est obtenue une solution limite. Nous utilisons quatre jeux de données provenant des sondages électoraux réalisés en 1998 dans l'État de l'Ohio pour illustrer comment il convient d'utiliser et d'interpréter les résultats des estimations pour les élections. Nous procédons à des études par simulation pour comparer les propriétés de cinq estimations bayésiennes sous un modèle de non réponse non ignorable.

    Date de diffusion : 2009-06-22

  • Articles et rapports : 12-001-X200800110606
    Description :

    Aux États Unis, les données provenant des sondages électoraux sont habituellement présentées dans des tableaux de contingence à double entrée et de nombreux sondages sont réalisés avant qu'ait lieu l'élection réelle en novembre. Par exemple, pour l'élection du gouverneur de l'État de l'Ohio en 1998, trois sondages (Buckeye State Poll) ont eu lieu, un en janvier, un en avril et un en octobre; la première catégorie des tableaux représente les candidats (par exemple Fisher, Taft et autre) et la deuxième représente l'intention courante de vote (votera vraisemblablement ou ne votera vraisemblablement pas pour le gouverneur de l'Ohio). Le nombre d'électeurs indécis est important dans l'une ou dans les deux catégories pour les trois sondages et nous utilisons une méthode bayésienne pour les répartir entre les trois candidats. Nous pouvons ainsi modéliser divers scénarios de données manquantes sous les hypothèses d'ignorabilité et de non ignorabilité, et nous utilisons un modèle Dirichlet Multinomial pour estimer les probabilités de cellule qui nous aideront à prédire le gagnant. Nous proposons un modèle de non réponse non ignorable variable en fonction du temps pour les trois tableaux. Ici, un modèle de non réponse non ignorable est centré sur un modèle de non réponse ignorable afin d'induire une certaine souplesse et une certaine incertitude au sujet de l'ignorabilité ou de la non ignorabilité. Nous considérons également deux autres modèles concurrents, à savoir un modèle de non réponse ignorable et un modèle de non réponse non ignorable. Ces deux derniers modèles reposent sur l'hypothèse d'un processus stochastique commun pour obtenir un renforcement par emprunt de données au cours du temps. Nous utilisons des méthodes de Monte Carlo par chaîne de Markov pour ajuster les modèles. Nous construisons aussi un paramètre qui peut éventuellement être utilisé pour prédire le gagnant parmi les candidats à l'élection de novembre.

    Date de diffusion : 2008-06-26

  • Articles et rapports : 11-522-X200600110392
    Description :

    Nous suivons une méthode bayésienne robuste pour analyser des données pouvant présenter un biais de non-réponse et un biais de sélection non ignorables. Nous utilisons un modèle de régression logistique robuste pour établir le lien entre les indicateurs de réponse (variable aléatoire de Bernoulli) et les covariables, dont nous disposons pour tous les membres de la population finie. Ce lien permet d'expliquer l'écart entre les répondants et les non-répondants de l'échantillon. Nous obtenons ce modèle robuste en élargissant le modèle de régression logistique conventionnel à un mélange de lois de Student, ce qui nous fournit des scores de propension (probabilité de sélection) que nous utilisons pour construire des cellules d'ajustement. Nous introduisons les valeurs des non-répondants en tirant un échantillon aléatoire à partir d'un estimateur à noyau de la densité, formé d'après les valeurs des répondants à l'intérieur des cellules d'ajustement. La prédiction fait appel à une régression linéaire spline, fondée sur les rangs, de la variable de réponse sur les covariables selon le domaine, en échantillonnant les erreurs à partir d'un autre estimateur à noyau de la densité, ce qui rend notre méthode encore plus robuste. Nous utilisons des méthodes de Monte-Carlo par chaînes de Markov (MCMC) pour ajuster notre modèle. Dans chaque sous-domaine, nous obtenons la loi a posteriori d'un quantile de la variable de réponse à l'intérieur de chaque sous-domaine en utilisant les statistiques d'ordre sur l'ensemble des individus (échantillonnés et non échantillonnés). Nous comparons notre méthode robuste à des méthodes paramétriques proposées récemment.

    Date de diffusion : 2008-03-17

  • Articles et rapports : 12-001-X20050029048
    Description :

    Le problème que nous considérons nécessite l'analyse de données catégoriques provenant d'un seul tableau à double entrée avec classification partielle (c'est à dire avec non réponses partielle et totale). Nous supposons qu'il s'agit de la seule information disponible. Une méthode bayésienne nous permet de modéliser divers scénarios de données manquantes sous les hypothèses d'ignorabilité et de non ignorabilité. Nous construisons un modèle de non réponse non ignorable que nous obtenons par extension du modèle de non réponse ignorable au moyen d'une loi a priori dépendante des données; l'extension au modèle de non réponse non ignorable rend le modèle de non réponse ignorable plus robuste. Nous utilisons un modèle Dirichlet Multinomial, corrigé pour la non réponse, pour estimer les probabilités de cellule et un facteur de Bayes pour vérifier l'hypothèse d'association. Nous illustrons notre méthode à l'aide de données sur la densité minérale osseuse et sur le revenu familial. Une analyse de sensibilité nous permet d'évaluer l'effet du choix de la loi a priori dépendante des données. Nous comparons les modèles de non réponse ignorable et non ignorable au moyen d'une étude par simulation et constatons qu'il existe des différences subtiles entre ces modèles.

    Date de diffusion : 2006-02-17

  • Articles et rapports : 12-001-X20050018089
    Description :

    Nous utilisons des modèles hiérarchiques bayésiens pour analyser les données sur l'indice de masse corporelle (IMC) des enfants et des adolescents en présence de non réponse non-ignorable, c'est-à-dire informative, tirées de la troisième National Health and Nutrition Examination Survey (NHANES III). Notre objectif est de prédire l'IMC moyen en population finie et la proportion de répondants pour les domaines formés par l'âge, la race et le sexe (covariables dans les modèles de régression) pour chacun des 35 grands comtés, en tenant compte des non répondants. Nous utilisons des méthodes de Monte Carlo par chaîne de Markov pour ajuster les modèles (deux modèles de sélection et deux modèles de mélange de schémas d'observation) aux données sur l'IMC provenant de la NHANES III. Au moyen d'une mesure de déviance et d'une étude de validation croisée, nous montrons que le modèle de sélection sous non réponse non-ignorable est le meilleur des quatre modèles. Nous montrons aussi que l'inférence au sujet de l'IMC n'est pas trop sensible au choix du modèle. Nous obtenons une amélioration en incluant une régression spline dans le modèle de sélection pour tenir compte de l'évolution de la relation entre l'IMC et l'âge.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20020026428
    Description :

    L'analyse des données d'enquête de différentes régions géographiques dont les données de chaque région sont polychotomiques se fait facilement au moyen de modèles bayesiens hiérarchiques, même s'il y a des cellules présentant des petits nombres pour certaines de ces régions. Cela pose toutefois un problème quand les données d'enquête sont incomplètes en raison de la non-réponse, en particulier quand les caractéristiques des répondants diffèrent de celles des non-répondants. En présence de non-réponse, on applique la méthode de sélection pour l'estimation parce qu'elle permet de procéder à des inférences à l'égard de tous les paramètres. En fait, on décrit un modèle bayesien hiérarchique pour l'analyse des données de la non-réponse multinomiale dont on ne peut faire abstraction dans diverses régions géographiques, puisque certaines données peuvent être de petite taille. Comme modèle, on utilise une densité à priori Dirichlet pour les probabilités multinomiales et une densité à priori bêta pour les probabilités de réponse. Ainsi, on peut faire un emprunt d'information auprès des grandes régions, dans le but d'améliorer la fiabilité des estimations des paramètres du modèle qui s'appliquent aux petites régions. Comme la densité conjointe à posteriori de tous les paramètres est complexe, l'inférence se fonde sur l'échantillonnage et on utilise la méthode de Monte Carlo à chaînes de Markov. On applique la méthode pour obtenir une analyse des données sur l'indice de masse corporelle (IMC) tirées de la troisième édition de la National Health and Nutrition Examination Survey (NHANES III). Pour faciliter la compréhension, l'IMC est classé selon 3 niveaux naturels pour chacun des 8 domaines regroupant âge-race-sexe et des 34 comtés. On évalue le rendement du modèle à partir des données de la NHANES III et d'exemples simulés qui montrent que le modèle fonctionne passablement bien.

    Date de diffusion : 2003-01-29