Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Année de publication

1 facets displayed. 1 facets selected.

Auteur(s)

12 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (9)

Tout (9) ((9 résultats))

  • Articles et rapports : 12-001-X202100100001
    Description :

    Dans un article précédent, nous avons élaboré un modèle pour effectuer une inférence sur des proportions de petits domaines en cas de biais de sélection dans lequel les réponses binaires et les probabilités de sélection sont corrélées. Il s’agit du modèle de sélection non ignorable homogène; une sélection non ignorable signifie que les probabilités de sélection et les réponses binaires sont corrélées. Il a été montré que le modèle de sélection non ignorable homogène donne de meilleurs résultats qu’un modèle de sélection ignorable de référence. Toutefois, l’une des limites du modèle de sélection non ignorable homogène réside dans le fait que les distributions des probabilités de sélection sont supposées identiques dans tous les domaines. C’est pourquoi nous introduisons un modèle plus général, le modèle de sélection non ignorable hétérogène, dans lequel les probabilités de sélection ne sont pas distribuées identiquement dans tous les domaines. Nous avons utilisé des méthodes de Monte Carlo par chaînes de Markov pour ajuster les trois modèles. Nous illustrons notre méthodologie et comparons nos modèles à l’aide d’un exemple sur la limitation d’activité sévère de la U.S. National Health Interview Survey (Enquête nationale sur la santé réalisée par interviews aux États-Unis). Nous réalisons également une étude par simulations pour démontrer que notre modèle de sélection non ignorable hétérogène est nécessaire en présence d’un biais de sélection modéré ou fort.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X202100100002
    Description :

    Nous nous penchons sur le problème du choix d’une stratégie d’échantillonnage et, tout particulièrement, d’un plan de sondage. Nous proposons une mesure du risque, dans laquelle la minimisation de la valeur oriente le choix. La méthode repose sur un modèle de superpopulation et l’incertitude entourant ses paramètres est prise en compte grâce à une distribution a priori. L’utilisation de cette méthode est illustrée au moyen d’un ensemble de données réel, qui donne des résultats satisfaisants. Comme base de référence, nous utilisons la stratégie qui couple l’estimateur par la différence à un échantillonnage avec probabilité proportionnelle à la taille, car elle est reconnue comme optimale quand le modèle de superpopulation est entièrement connu. Nous démontrons qu’y compris en cas de spécifications erronées modérées du modèle, cette stratégie n’est pas robuste et peut être surpassée par d’autres solutions.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X202100100003
    Description :

    L’utilisation de réponses brouillées est un moyen efficace d’effectuer le contrôle de la divulgation statistique. Les réponses brouillées peuvent être produites au moyen d’un procédé aléatoire contrôlé. Dans le présent article, nous proposons d’utiliser la méthode de la vraisemblance empirique fondée sur l’échantillon pour effectuer des inférences statistiques dans le cadre d’un plan de sondage complexe avec réponses brouillées. Plus précisément, nous proposons d’utiliser un intervalle de confiance de type Wilk pour l’inférence statistique. La méthode proposée peut servir d’outil général pour l’inférence en présence de fichiers de données d’enquête confidentielles à grande diffusion. Les propriétés asymptotiques sont produites, et l’étude par simulations limitée confirme la validité de la théorie. De plus, nous appliquons la méthode proposée à des situations réelles.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X202100100004
    Description :

    À l’ère des mégadonnées, on dispose d’un nombre croissant de sources de données pour les analyses statistiques. Comme exemple important d’inférence de population finie, nous examinons une approche d’imputation pour la combinaison de données tirées d’une enquête probabiliste et de mégadonnées. Nous nous concentrons sur une situation où la variable à l’étude est observée dans les mégadonnées seulement, mais les autres variables auxiliaires sont couramment observées dans les deux sources de données. Contrairement à l’imputation habituellement utilisée pour l’analyse des données manquantes, nous créons des valeurs imputées pour toutes les unités de l’échantillon probabiliste. Une imputation massive de ce type est intéressante dans le contexte de l’intégration des données d’enquête (Kim et Rao, 2012). Nous étendons l’imputation massive comme outil d’intégration des données d’enquête et des mégadonnées ne provenant pas d’enquêtes. Nous présentons les méthodes d’imputation massive et leurs propriétés statistiques. De plus, l’estimateur d’appariement de Rivers (2007) est traité comme cas particulier. L’estimation de la variance au moyen de données obtenues par imputation massive est abordée. Les résultats de la simulation montrent que les estimateurs proposés donnent de meilleurs résultats que les estimateurs concurrents en matière de robustesse et d’efficacité.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X202100100005
    Description :

    Les stratégies bayésiennes de regroupement servent à résoudre les problèmes de précision liés aux analyses statistiques des données sur petits domaines. Dans ces cas, les échantillons des sous-populations sont généralement petits, même si la population ne l’est pas nécessairement. Une autre solution consiste à regrouper des données semblables en vue de réduire le nombre de paramètres dans le modèle. De nombreuses enquêtes recueillent des données catégoriques par domaine, lesquelles sont ensuite réunies dans un tableau de contingence. Nous examinons les modèles de regroupement bayésiens hiérarchisés avec une loi a priori de processus de Dirichlet pour analyser les données catégoriques sur de petits domaines. Toutefois, la loi a priori utilisée aux fins de regroupement de ces données entraîne souvent un problème de rétrécissement excessif. Pour corriger le problème, nous séparons les paramètres en effets globaux et locaux. Cette étude porte sur le regroupement de données au moyen d’un processus de Dirichlet. Nous comparons les modèles de regroupement utilisant des données sur la densité minérale osseuse (DMO) tirées de la Third National Health and Nutrition Examination Survey, portant sur la période de 1988 à 1994 aux États-Unis. Nos analyses des données sur la DMO sont effectuées au moyen d’un échantillonneur de Gibbs et d’un échantillonnage par tranche pour effectuer les calculs a posteriori.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X202100100006
    Description :

    Il est maintenant possible de gérer des enquêtes à l’aide de modèles statistiques et d’autres outils applicables en temps réel. Le présent article porte sur trois nouveautés nées des tentatives d’adoption d’une démarche plus scientifique dans la gestion du travail sur le terrain : (1) l’utilisation de plans réactifs et adaptatifs aux fins de réduction du biais de non-réponse, d’autres sources d’erreur ou des coûts; (2) la définition de l’itinéraire optimal des déplacements des intervieweurs de façon à réduire les coûts; et (3) la rétroaction rapide aux intervieweurs aux fins de diminution des erreurs de mesure. L’article commence en examinant les expériences et les études par simulations portant sur l’efficacité des plans adaptatifs et réactifs. Ces études suggèrent à penser que ces plans peuvent produire des gains modestes dans la représentativité des échantillons d’enquête ou des économies de coûts modestes, mais qu’ils sont aussi susceptibles d’entraîner des répercussions négatives. La section suivante de l’article étudie les efforts déployés pour fournir aux intervieweurs un itinéraire recommandé à suivre pendant leur prochain déplacement sur le terrain, l’objectif étant de faire correspondre davantage le travail des intervieweurs sur le terrain avec les priorités de recherche tout en réduisant les temps de déplacement. Notons toutefois qu’une étude mettant à l’essai cette stratégie a révélé que, souvent, les intervieweurs ignorent les instructions. Ensuite, l’article décrit les tentatives de donner une rétroaction rapide aux intervieweurs, à partir des enregistrements automatiques de leurs interviews. Souvent, les intervieweurs lisent les questions d’une manière qui influence les réponses des répondants. La correction de ce type de problèmes a rapidement apporté des améliorations notables de la qualité des données. Toutes les méthodes visent à remplacer le jugement des intervieweurs, des superviseurs sur le terrain et des gestionnaires d’enquête par des modèles statistiques et des constatations scientifiques.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X202100100007
    Description :

    Nous examinons l’estimation d’une moyenne sur petits domaines sous le modèle de base au niveau de l’unité. La somme des estimateurs dépendant d’un modèle qui en résultent peut ne pas correspondre aux estimations obtenues au moyen d’un estimateur d’enquête direct qui est considéré comme précis pour l’ensemble de ces petits domaines. La réconciliation force la concordance des estimateurs fondés sur un modèle avec l’estimateur direct au niveau du domaine agrégé. L’estimateur par la régression généralisée est l’estimateur direct que nous utilisons pour réaliser la réconciliation. Dans le présent document, nous comparons des estimateurs sur petits domaines réconciliés d’après quatre procédures. La première procédure permet d’obtenir des estimateurs réconciliés au moyen d’un ajustement par le ratio. La deuxième procédure repose sur le meilleur estimateur linéaire sans biais empirique obtenu sous le modèle au niveau de l’unité augmenté à l’aide d’une variable adéquate qui assure la réconciliation. La troisième procédure utilise des estimateurs pseudo-empiriques construits au moyen de poids de sondage convenablement choisis de sorte que, une fois agrégés, ils concordent avec l’estimateur direct fiable pour le plus grand domaine. La quatrième procédure permet d’obtenir des estimateurs réconciliés qui résultent d’un problème de minimisation sous la contrainte donnée par la condition de réconciliation. Ces procédures de réconciliation sont appliquées aux estimateurs sur petits domaines lorsque les taux d’échantillonnage sont non négligeables. Les estimateurs réconciliés qui en résultent sont comparés quant au biais relatif et à l’erreur quadratique moyenne dans une étude par simulations fondée sur un plan de sondage ainsi qu’un exemple fondé sur des données d’enquête réelles.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X202100100008
    Description :

    Les changements dans le plan d’une enquête répétée entraînent généralement des effets systématiques dans les estimations de l’échantillon, qu’on appellera discontinuités dans la suite du texte. Pour ne pas confondre les changements réels d’une période à l’autre avec les effets d’un remaniement, on quantifie souvent les discontinuités en mettant en œuvre parallèlement le plan précédent et le nouveau pendant un certain temps. Les tailles d’échantillon de ces exécutions parallèles sont généralement trop petites pour que des estimateurs directs puissent être appliqués aux discontinuités des domaines. On propose un modèle de Fay-Herriot (FH) hiérarchique bayésien bivarié pour prédire plus précisément les discontinuités de domaine et on l’applique à un remaniement de l’enquête néerlandaise sur la victimisation criminelle (Dutch Crime Victimzation Survey). Cette méthode est comparée à un modèle de FH univarié où les estimations directes selon l’approche ordinaire sont utilisées comme covariables dans un modèle de FH pour l’autre approche appliquée sur une taille d’échantillon réduite et un modèle de FH univarié où les estimations directes des discontinuités sont modélisées directement. On propose une procédure de sélection ascendante corrigée qui minimise le critère d’information de Watanabe-Akaike (Watanabe-Akaike Information Criterion ou WAIC) jusqu’à ce que la réduction du WAIC soit inférieure à l’erreur-type de ce critère. Au moyen de cette approche, on choisit des modèles plus parcimonieux, ce qui empêche de sélectionner des modèles complexes qui tendent à surajuster les données.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X202100100009
    Description :

    L’imputation par appariement selon la moyenne prédictive est couramment utilisée pour régler les cas de non-réponse dans le cadre d’enquêtes. L’approche habituelle consiste à spécifier un modèle de régression unique. Dans la présente note, nous proposons une nouvelle procédure par appariement selon la moyenne prédictive permettant à l’utilisateur de spécifier plusieurs modèles de régression. L’estimateur obtenu est multirobuste en ce sens qu’il demeure convergent si l’un des modèles de régression spécifié est défini correctement. Les résultats d’une étude de simulation indiquent que la méthode proposée fonctionne bien en termes de biais et d’efficacité.

    Date de diffusion : 2021-06-24
Stats en bref (0)

Stats en bref (0) (0 résultat)

Aucun contenu disponible actuellement

Articles et rapports (9)

Articles et rapports (9) ((9 résultats))

  • Articles et rapports : 12-001-X202100100001
    Description :

    Dans un article précédent, nous avons élaboré un modèle pour effectuer une inférence sur des proportions de petits domaines en cas de biais de sélection dans lequel les réponses binaires et les probabilités de sélection sont corrélées. Il s’agit du modèle de sélection non ignorable homogène; une sélection non ignorable signifie que les probabilités de sélection et les réponses binaires sont corrélées. Il a été montré que le modèle de sélection non ignorable homogène donne de meilleurs résultats qu’un modèle de sélection ignorable de référence. Toutefois, l’une des limites du modèle de sélection non ignorable homogène réside dans le fait que les distributions des probabilités de sélection sont supposées identiques dans tous les domaines. C’est pourquoi nous introduisons un modèle plus général, le modèle de sélection non ignorable hétérogène, dans lequel les probabilités de sélection ne sont pas distribuées identiquement dans tous les domaines. Nous avons utilisé des méthodes de Monte Carlo par chaînes de Markov pour ajuster les trois modèles. Nous illustrons notre méthodologie et comparons nos modèles à l’aide d’un exemple sur la limitation d’activité sévère de la U.S. National Health Interview Survey (Enquête nationale sur la santé réalisée par interviews aux États-Unis). Nous réalisons également une étude par simulations pour démontrer que notre modèle de sélection non ignorable hétérogène est nécessaire en présence d’un biais de sélection modéré ou fort.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X202100100002
    Description :

    Nous nous penchons sur le problème du choix d’une stratégie d’échantillonnage et, tout particulièrement, d’un plan de sondage. Nous proposons une mesure du risque, dans laquelle la minimisation de la valeur oriente le choix. La méthode repose sur un modèle de superpopulation et l’incertitude entourant ses paramètres est prise en compte grâce à une distribution a priori. L’utilisation de cette méthode est illustrée au moyen d’un ensemble de données réel, qui donne des résultats satisfaisants. Comme base de référence, nous utilisons la stratégie qui couple l’estimateur par la différence à un échantillonnage avec probabilité proportionnelle à la taille, car elle est reconnue comme optimale quand le modèle de superpopulation est entièrement connu. Nous démontrons qu’y compris en cas de spécifications erronées modérées du modèle, cette stratégie n’est pas robuste et peut être surpassée par d’autres solutions.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X202100100003
    Description :

    L’utilisation de réponses brouillées est un moyen efficace d’effectuer le contrôle de la divulgation statistique. Les réponses brouillées peuvent être produites au moyen d’un procédé aléatoire contrôlé. Dans le présent article, nous proposons d’utiliser la méthode de la vraisemblance empirique fondée sur l’échantillon pour effectuer des inférences statistiques dans le cadre d’un plan de sondage complexe avec réponses brouillées. Plus précisément, nous proposons d’utiliser un intervalle de confiance de type Wilk pour l’inférence statistique. La méthode proposée peut servir d’outil général pour l’inférence en présence de fichiers de données d’enquête confidentielles à grande diffusion. Les propriétés asymptotiques sont produites, et l’étude par simulations limitée confirme la validité de la théorie. De plus, nous appliquons la méthode proposée à des situations réelles.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X202100100004
    Description :

    À l’ère des mégadonnées, on dispose d’un nombre croissant de sources de données pour les analyses statistiques. Comme exemple important d’inférence de population finie, nous examinons une approche d’imputation pour la combinaison de données tirées d’une enquête probabiliste et de mégadonnées. Nous nous concentrons sur une situation où la variable à l’étude est observée dans les mégadonnées seulement, mais les autres variables auxiliaires sont couramment observées dans les deux sources de données. Contrairement à l’imputation habituellement utilisée pour l’analyse des données manquantes, nous créons des valeurs imputées pour toutes les unités de l’échantillon probabiliste. Une imputation massive de ce type est intéressante dans le contexte de l’intégration des données d’enquête (Kim et Rao, 2012). Nous étendons l’imputation massive comme outil d’intégration des données d’enquête et des mégadonnées ne provenant pas d’enquêtes. Nous présentons les méthodes d’imputation massive et leurs propriétés statistiques. De plus, l’estimateur d’appariement de Rivers (2007) est traité comme cas particulier. L’estimation de la variance au moyen de données obtenues par imputation massive est abordée. Les résultats de la simulation montrent que les estimateurs proposés donnent de meilleurs résultats que les estimateurs concurrents en matière de robustesse et d’efficacité.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X202100100005
    Description :

    Les stratégies bayésiennes de regroupement servent à résoudre les problèmes de précision liés aux analyses statistiques des données sur petits domaines. Dans ces cas, les échantillons des sous-populations sont généralement petits, même si la population ne l’est pas nécessairement. Une autre solution consiste à regrouper des données semblables en vue de réduire le nombre de paramètres dans le modèle. De nombreuses enquêtes recueillent des données catégoriques par domaine, lesquelles sont ensuite réunies dans un tableau de contingence. Nous examinons les modèles de regroupement bayésiens hiérarchisés avec une loi a priori de processus de Dirichlet pour analyser les données catégoriques sur de petits domaines. Toutefois, la loi a priori utilisée aux fins de regroupement de ces données entraîne souvent un problème de rétrécissement excessif. Pour corriger le problème, nous séparons les paramètres en effets globaux et locaux. Cette étude porte sur le regroupement de données au moyen d’un processus de Dirichlet. Nous comparons les modèles de regroupement utilisant des données sur la densité minérale osseuse (DMO) tirées de la Third National Health and Nutrition Examination Survey, portant sur la période de 1988 à 1994 aux États-Unis. Nos analyses des données sur la DMO sont effectuées au moyen d’un échantillonneur de Gibbs et d’un échantillonnage par tranche pour effectuer les calculs a posteriori.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X202100100006
    Description :

    Il est maintenant possible de gérer des enquêtes à l’aide de modèles statistiques et d’autres outils applicables en temps réel. Le présent article porte sur trois nouveautés nées des tentatives d’adoption d’une démarche plus scientifique dans la gestion du travail sur le terrain : (1) l’utilisation de plans réactifs et adaptatifs aux fins de réduction du biais de non-réponse, d’autres sources d’erreur ou des coûts; (2) la définition de l’itinéraire optimal des déplacements des intervieweurs de façon à réduire les coûts; et (3) la rétroaction rapide aux intervieweurs aux fins de diminution des erreurs de mesure. L’article commence en examinant les expériences et les études par simulations portant sur l’efficacité des plans adaptatifs et réactifs. Ces études suggèrent à penser que ces plans peuvent produire des gains modestes dans la représentativité des échantillons d’enquête ou des économies de coûts modestes, mais qu’ils sont aussi susceptibles d’entraîner des répercussions négatives. La section suivante de l’article étudie les efforts déployés pour fournir aux intervieweurs un itinéraire recommandé à suivre pendant leur prochain déplacement sur le terrain, l’objectif étant de faire correspondre davantage le travail des intervieweurs sur le terrain avec les priorités de recherche tout en réduisant les temps de déplacement. Notons toutefois qu’une étude mettant à l’essai cette stratégie a révélé que, souvent, les intervieweurs ignorent les instructions. Ensuite, l’article décrit les tentatives de donner une rétroaction rapide aux intervieweurs, à partir des enregistrements automatiques de leurs interviews. Souvent, les intervieweurs lisent les questions d’une manière qui influence les réponses des répondants. La correction de ce type de problèmes a rapidement apporté des améliorations notables de la qualité des données. Toutes les méthodes visent à remplacer le jugement des intervieweurs, des superviseurs sur le terrain et des gestionnaires d’enquête par des modèles statistiques et des constatations scientifiques.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X202100100007
    Description :

    Nous examinons l’estimation d’une moyenne sur petits domaines sous le modèle de base au niveau de l’unité. La somme des estimateurs dépendant d’un modèle qui en résultent peut ne pas correspondre aux estimations obtenues au moyen d’un estimateur d’enquête direct qui est considéré comme précis pour l’ensemble de ces petits domaines. La réconciliation force la concordance des estimateurs fondés sur un modèle avec l’estimateur direct au niveau du domaine agrégé. L’estimateur par la régression généralisée est l’estimateur direct que nous utilisons pour réaliser la réconciliation. Dans le présent document, nous comparons des estimateurs sur petits domaines réconciliés d’après quatre procédures. La première procédure permet d’obtenir des estimateurs réconciliés au moyen d’un ajustement par le ratio. La deuxième procédure repose sur le meilleur estimateur linéaire sans biais empirique obtenu sous le modèle au niveau de l’unité augmenté à l’aide d’une variable adéquate qui assure la réconciliation. La troisième procédure utilise des estimateurs pseudo-empiriques construits au moyen de poids de sondage convenablement choisis de sorte que, une fois agrégés, ils concordent avec l’estimateur direct fiable pour le plus grand domaine. La quatrième procédure permet d’obtenir des estimateurs réconciliés qui résultent d’un problème de minimisation sous la contrainte donnée par la condition de réconciliation. Ces procédures de réconciliation sont appliquées aux estimateurs sur petits domaines lorsque les taux d’échantillonnage sont non négligeables. Les estimateurs réconciliés qui en résultent sont comparés quant au biais relatif et à l’erreur quadratique moyenne dans une étude par simulations fondée sur un plan de sondage ainsi qu’un exemple fondé sur des données d’enquête réelles.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X202100100008
    Description :

    Les changements dans le plan d’une enquête répétée entraînent généralement des effets systématiques dans les estimations de l’échantillon, qu’on appellera discontinuités dans la suite du texte. Pour ne pas confondre les changements réels d’une période à l’autre avec les effets d’un remaniement, on quantifie souvent les discontinuités en mettant en œuvre parallèlement le plan précédent et le nouveau pendant un certain temps. Les tailles d’échantillon de ces exécutions parallèles sont généralement trop petites pour que des estimateurs directs puissent être appliqués aux discontinuités des domaines. On propose un modèle de Fay-Herriot (FH) hiérarchique bayésien bivarié pour prédire plus précisément les discontinuités de domaine et on l’applique à un remaniement de l’enquête néerlandaise sur la victimisation criminelle (Dutch Crime Victimzation Survey). Cette méthode est comparée à un modèle de FH univarié où les estimations directes selon l’approche ordinaire sont utilisées comme covariables dans un modèle de FH pour l’autre approche appliquée sur une taille d’échantillon réduite et un modèle de FH univarié où les estimations directes des discontinuités sont modélisées directement. On propose une procédure de sélection ascendante corrigée qui minimise le critère d’information de Watanabe-Akaike (Watanabe-Akaike Information Criterion ou WAIC) jusqu’à ce que la réduction du WAIC soit inférieure à l’erreur-type de ce critère. Au moyen de cette approche, on choisit des modèles plus parcimonieux, ce qui empêche de sélectionner des modèles complexes qui tendent à surajuster les données.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X202100100009
    Description :

    L’imputation par appariement selon la moyenne prédictive est couramment utilisée pour régler les cas de non-réponse dans le cadre d’enquêtes. L’approche habituelle consiste à spécifier un modèle de régression unique. Dans la présente note, nous proposons une nouvelle procédure par appariement selon la moyenne prédictive permettant à l’utilisateur de spécifier plusieurs modèles de régression. L’estimateur obtenu est multirobuste en ce sens qu’il demeure convergent si l’un des modèles de régression spécifié est défini correctement. Les résultats d’une étude de simulation indiquent que la méthode proposée fonctionne bien en termes de biais et d’efficacité.

    Date de diffusion : 2021-06-24
Revues et périodiques (0)

Revues et périodiques (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :