Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Année de publication

1 facets displayed. 1 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (23)

Tout (23) (0 à 10 de 23 résultats)

  • Articles et rapports : 12-001-X20050018083
    Description :

    L'élaboration de la méthodologie de couplage informatisé d'enregistrements a facilité la réalisation d'études cohorte de mortalité dans lesquelles les données sur l'exposition provenant d'une base de données sont couplées électroniquement à celles sur la mortalité provenant d'une autre base de données. Cependant, cette méthode donne lieu à des erreurs de couplage causées par l'appariement incorrect d'une personne figurant dans l'une des bases de données à une personne différente dans l'autre base de données. Dans le présent article, nous examinons l'effet des erreurs de couplage sur les estimations d'indicateurs épidémiologiques du risque, comme les ratios standardisés de mortalité et les paramètres des modèles de régression du risque relatif. Nous montrons que les effets sur les nombres observé et attendu de décès sont de sens opposé et que, par conséquent, ces indicateurs peuvent présenter un biais et une variabilité supplémentaire en présence d'erreurs de couplage.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018084
    Description :

    Les instituts nationaux de statistique intègrent parfois des expériences dans les enquêtes par sondage courantes afin d'étudier les effets éventuels de diverses techniques d'enquête sur les estimations des paramètres d'une population finie. En vue de tester les hypothèses au sujet des différences entre les estimations par sondage obtenues on applique diverses variantes de l'enquête, nous élaborons une théorie fondée sur le plan de sondage pour analyser des plans en randomisation totale ou des plans en blocs randomisés intégrés dans des plans de sondage complexes généraux. Pour ces deux types de plans d'expérience, nous établissons une statistique de Wald fondée sur le plan de sondage pour l'estimateur d'Horvitz-Thompson et pour l'estimateur par la régression généralisée. Enfin, nous illustrons la théorie au moyen d'une étude en simulation.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018085
    Description :

    Le couplage d'enregistrements est un processus qui consiste à apparier des enregistrements provenant de deux fichiers en essayant de sélectionner les paires dont les deux enregistrements appartiennent à une même entité. La démarche fondamentale consiste à utiliser un poids d'appariement pour mesurer la probabilité qu'un appariement soit correct et une règle de décision pour décider si une paire d'enregistrements constitue un « vrai » ou un « faux » appariement. Les seuils de poids utilisés pour déterminer si une paire d'enregistrements représente un appariement ou un non appariement dépend du niveau de contrôle souhaité sur les erreurs de couplage. Les méthodes appliquées à l'heure actuelle pour déterminer les seuils de sélection et estimer les erreurs de couplage peuvent donner des résultats divergents, selon le type d'erreur de couplage et la méthode de couplage. L'article décrit une étude de cas reposant sur les méthodes existantes de couplage pour former les paires d'enregistrements, mais sur une nouvelle approche de simulation (SimRate) pour déterminer les seuils de sélection et estimer les erreurs de couplage. SimRate s'appuie sur la distribution observée des données dans les paires appariées et non appariées afin de générer un grand ensemble simulé de paires d'enregistrements, d'attribuer un poids d'appariement à chacune de ces paires d'après les règles d'appariement spécifiées et d'utiliser les courbes de distribution des poids des paires simulées pour estimer l'erreur.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018086
    Description :

    La technique du dénombrement d'items (item count technique) est une méthode de questionnement indirect qui a été conçue pour estimer la proportion de personnes pour lesquelles un item important de nature délicate est vrai. Elle consiste à demander aux répondants d'indiquer, parmi une liste de phrases descriptives, le nombre d'entre elles qu'ils estiment s'appliquer à eux. Une liste comprenant l'item clé est présentée à une moitié de l'échantillon et une liste ne le contenant pas est présentée à l'autre moitié. La différence entre les nombres moyens de phrases sélectionnées est un estimateur de la proportion recherchée. Dans le présent article, nous proposons deux nouvelles méthodes, appelées méthode par croisement et méthode par double croisement, où les proportions dans les sous groupes ou domaines sont estimées d'après les données obtenues par la technique du dénombrement d'items. Afin d'évaluer la précision des méthodes proposées, nous réalisons des expériences par simulation au moyen de données tirées d'une enquête sur le caractère national japonais. Les résultats montrent que la méthode par double croisement est beaucoup plus précise que la méthode stratifiée traditionnelle et moins susceptible de produire des estimations illogiques.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018087
    Description :

    Dans le domaine de la statistique officielle, le processus de vérification des données joue un rôle important dans la rapidité de production, l'exactitude des données et les coûts d'enquête. Les techniques adoptées pour déceler et éliminer les erreurs que contiennent les données doivent essentiellement tenir compte simultanément de tous ces aspects. L'une des erreurs systématiques que l'on observe fréquemment dans les enquêtes visant à recueillir des données numériques est celle de l'unité de mesure. Cette erreur a une forte incidence sur la rapidité de production, l'exactitude des données et le coût de la phase de vérification et d'imputation. Dans le présent article, nous proposons une formalisation probabiliste du problème basée sur des modèles de mélanges finis. Ce cadre nous permet de traiter le problème dans un contexte multivarié et fournit en outre plusieurs diagnostics utiles pour établir la priorité des cas qui doivent être examinés plus en profondeur par examen manuel. Le classement des unités par ordre de priorité est important si l'on veut accroître l'exactitude des données, tout en évitant de perdre du temps en faisant le suivi d'unités qui ne sont pas vraiment critiques.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018088
    Description :

    Lorsqu'on couple géographiquement les enregistrements d'une base de données administratives à des groupes d'îlots de recensement, les caractéristiques locales tirées du recensement peuvent être utilisées comme variables contextuelles susceptibles de compléter utilement les variables qui ne peuvent être observées directement à partir des dossiers administratifs. Les bases de données contiennent souvent des enregistrements dont les renseignements sur l'adresse ne suffisent pas pour le couplage géographique avec des groupes d'îlots de recensement; par conséquent, les variables contextuelles pour ces enregistrements ne sont pas observées. Nous proposons une nouvelle méthode qui consiste à utiliser l'information provenant des « cas appariés » et des modèles de régression multivariée pour créer des imputations multiples pour les variables non observées. Notre méthode donne de meilleurs résultats que d'autres dans les études par simulation au moyen de données du recensement et a été appliquée à un ensemble de données choisi pour étudier les profils de traitement des personnes atteintes d'un cancer du côlon et du rectum.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018089
    Description :

    Nous utilisons des modèles hiérarchiques bayésiens pour analyser les données sur l'indice de masse corporelle (IMC) des enfants et des adolescents en présence de non réponse non-ignorable, c'est-à-dire informative, tirées de la troisième National Health and Nutrition Examination Survey (NHANES III). Notre objectif est de prédire l'IMC moyen en population finie et la proportion de répondants pour les domaines formés par l'âge, la race et le sexe (covariables dans les modèles de régression) pour chacun des 35 grands comtés, en tenant compte des non répondants. Nous utilisons des méthodes de Monte Carlo par chaîne de Markov pour ajuster les modèles (deux modèles de sélection et deux modèles de mélange de schémas d'observation) aux données sur l'IMC provenant de la NHANES III. Au moyen d'une mesure de déviance et d'une étude de validation croisée, nous montrons que le modèle de sélection sous non réponse non-ignorable est le meilleur des quatre modèles. Nous montrons aussi que l'inférence au sujet de l'IMC n'est pas trop sensible au choix du modèle. Nous obtenons une amélioration en incluant une régression spline dans le modèle de sélection pour tenir compte de l'évolution de la relation entre l'IMC et l'âge.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018091
    Description :

    Diverses procédures en vue de construire des vecteurs de poids de régression non négatifs sont considérées. Un vecteur de poids de régression dans lequel les poids initiaux sont les inverses des probabilités de sélection conditionnelles approximatives est présenté. Une étude par simulation permet de comparer les poids obtenus par la régression pondérée, la programmation quadratique, la méthode itérative du quotient, une procédure logit et la méthode du maximum de vraisemblance.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018092
    Description :

    En échantillonnage, quand on dispose d'information auxiliaire, il est bien connu que l'« estimateur (par la régression) optimal » fondé sur le plan de sondage d'un total ou d'une moyenne de population finie est (du moins asymptotiquement) plus efficace que l'estimateur GREG correspondant. Nous illustrerons ce fait au moyen de simulations avec échantillonnage stratifié à partir de populations à distribution asymétrique. Au départ, l'estimateur GREG a été construit au moyen d'un modèle linéaire de superpopulation auxiliaire. Il peut aussi être considéré comme un estimateur par calage, c'est à dire un estimateur linéaire pondéré, où les poids obéissent à l'équation de calage et, sous cette contrainte, sont aussi proches que possible des « poids d'Horvitz Thompson » originaux (d'après une mesure de distance appropriée). Nous montrons que l'estimateur optimal peut aussi être considéré comme un estimateur par calage à cet égard avec une mesure quadratique de distance étroitement liée à celle générant l'estimateur GREG. Nous donnons aussi des exemples simples révélant qu'il n'est pas toujours facile d'obtenir cette nouvelle mesure.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018093
    Description :

    Il est fréquent de se servir de l'expression bien connue de l'effet du plan dû à la mise en grappes élaborée par Kish pour éclairer le processus d'élaboration du plan d'échantillonnage en utilisant une approximation telle que b_barre à la place de b. Cependant, si le plan comprend une pondération ou une variation de la taille des grappes, cette approximation peut être médiocre. Dans le présent article, nous discutons de la sensibilité de l'approximation aux écarts par rapport aux hypothèses implicites et proposons une approximation de rechange.

    Date de diffusion : 2005-07-21
Stats en bref (0)

Stats en bref (0) (0 résultat)

Aucun contenu disponible actuellement

Articles et rapports (22)

Articles et rapports (22) (0 à 10 de 22 résultats)

  • Articles et rapports : 12-001-X20050018083
    Description :

    L'élaboration de la méthodologie de couplage informatisé d'enregistrements a facilité la réalisation d'études cohorte de mortalité dans lesquelles les données sur l'exposition provenant d'une base de données sont couplées électroniquement à celles sur la mortalité provenant d'une autre base de données. Cependant, cette méthode donne lieu à des erreurs de couplage causées par l'appariement incorrect d'une personne figurant dans l'une des bases de données à une personne différente dans l'autre base de données. Dans le présent article, nous examinons l'effet des erreurs de couplage sur les estimations d'indicateurs épidémiologiques du risque, comme les ratios standardisés de mortalité et les paramètres des modèles de régression du risque relatif. Nous montrons que les effets sur les nombres observé et attendu de décès sont de sens opposé et que, par conséquent, ces indicateurs peuvent présenter un biais et une variabilité supplémentaire en présence d'erreurs de couplage.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018084
    Description :

    Les instituts nationaux de statistique intègrent parfois des expériences dans les enquêtes par sondage courantes afin d'étudier les effets éventuels de diverses techniques d'enquête sur les estimations des paramètres d'une population finie. En vue de tester les hypothèses au sujet des différences entre les estimations par sondage obtenues on applique diverses variantes de l'enquête, nous élaborons une théorie fondée sur le plan de sondage pour analyser des plans en randomisation totale ou des plans en blocs randomisés intégrés dans des plans de sondage complexes généraux. Pour ces deux types de plans d'expérience, nous établissons une statistique de Wald fondée sur le plan de sondage pour l'estimateur d'Horvitz-Thompson et pour l'estimateur par la régression généralisée. Enfin, nous illustrons la théorie au moyen d'une étude en simulation.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018085
    Description :

    Le couplage d'enregistrements est un processus qui consiste à apparier des enregistrements provenant de deux fichiers en essayant de sélectionner les paires dont les deux enregistrements appartiennent à une même entité. La démarche fondamentale consiste à utiliser un poids d'appariement pour mesurer la probabilité qu'un appariement soit correct et une règle de décision pour décider si une paire d'enregistrements constitue un « vrai » ou un « faux » appariement. Les seuils de poids utilisés pour déterminer si une paire d'enregistrements représente un appariement ou un non appariement dépend du niveau de contrôle souhaité sur les erreurs de couplage. Les méthodes appliquées à l'heure actuelle pour déterminer les seuils de sélection et estimer les erreurs de couplage peuvent donner des résultats divergents, selon le type d'erreur de couplage et la méthode de couplage. L'article décrit une étude de cas reposant sur les méthodes existantes de couplage pour former les paires d'enregistrements, mais sur une nouvelle approche de simulation (SimRate) pour déterminer les seuils de sélection et estimer les erreurs de couplage. SimRate s'appuie sur la distribution observée des données dans les paires appariées et non appariées afin de générer un grand ensemble simulé de paires d'enregistrements, d'attribuer un poids d'appariement à chacune de ces paires d'après les règles d'appariement spécifiées et d'utiliser les courbes de distribution des poids des paires simulées pour estimer l'erreur.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018086
    Description :

    La technique du dénombrement d'items (item count technique) est une méthode de questionnement indirect qui a été conçue pour estimer la proportion de personnes pour lesquelles un item important de nature délicate est vrai. Elle consiste à demander aux répondants d'indiquer, parmi une liste de phrases descriptives, le nombre d'entre elles qu'ils estiment s'appliquer à eux. Une liste comprenant l'item clé est présentée à une moitié de l'échantillon et une liste ne le contenant pas est présentée à l'autre moitié. La différence entre les nombres moyens de phrases sélectionnées est un estimateur de la proportion recherchée. Dans le présent article, nous proposons deux nouvelles méthodes, appelées méthode par croisement et méthode par double croisement, où les proportions dans les sous groupes ou domaines sont estimées d'après les données obtenues par la technique du dénombrement d'items. Afin d'évaluer la précision des méthodes proposées, nous réalisons des expériences par simulation au moyen de données tirées d'une enquête sur le caractère national japonais. Les résultats montrent que la méthode par double croisement est beaucoup plus précise que la méthode stratifiée traditionnelle et moins susceptible de produire des estimations illogiques.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018087
    Description :

    Dans le domaine de la statistique officielle, le processus de vérification des données joue un rôle important dans la rapidité de production, l'exactitude des données et les coûts d'enquête. Les techniques adoptées pour déceler et éliminer les erreurs que contiennent les données doivent essentiellement tenir compte simultanément de tous ces aspects. L'une des erreurs systématiques que l'on observe fréquemment dans les enquêtes visant à recueillir des données numériques est celle de l'unité de mesure. Cette erreur a une forte incidence sur la rapidité de production, l'exactitude des données et le coût de la phase de vérification et d'imputation. Dans le présent article, nous proposons une formalisation probabiliste du problème basée sur des modèles de mélanges finis. Ce cadre nous permet de traiter le problème dans un contexte multivarié et fournit en outre plusieurs diagnostics utiles pour établir la priorité des cas qui doivent être examinés plus en profondeur par examen manuel. Le classement des unités par ordre de priorité est important si l'on veut accroître l'exactitude des données, tout en évitant de perdre du temps en faisant le suivi d'unités qui ne sont pas vraiment critiques.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018088
    Description :

    Lorsqu'on couple géographiquement les enregistrements d'une base de données administratives à des groupes d'îlots de recensement, les caractéristiques locales tirées du recensement peuvent être utilisées comme variables contextuelles susceptibles de compléter utilement les variables qui ne peuvent être observées directement à partir des dossiers administratifs. Les bases de données contiennent souvent des enregistrements dont les renseignements sur l'adresse ne suffisent pas pour le couplage géographique avec des groupes d'îlots de recensement; par conséquent, les variables contextuelles pour ces enregistrements ne sont pas observées. Nous proposons une nouvelle méthode qui consiste à utiliser l'information provenant des « cas appariés » et des modèles de régression multivariée pour créer des imputations multiples pour les variables non observées. Notre méthode donne de meilleurs résultats que d'autres dans les études par simulation au moyen de données du recensement et a été appliquée à un ensemble de données choisi pour étudier les profils de traitement des personnes atteintes d'un cancer du côlon et du rectum.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018089
    Description :

    Nous utilisons des modèles hiérarchiques bayésiens pour analyser les données sur l'indice de masse corporelle (IMC) des enfants et des adolescents en présence de non réponse non-ignorable, c'est-à-dire informative, tirées de la troisième National Health and Nutrition Examination Survey (NHANES III). Notre objectif est de prédire l'IMC moyen en population finie et la proportion de répondants pour les domaines formés par l'âge, la race et le sexe (covariables dans les modèles de régression) pour chacun des 35 grands comtés, en tenant compte des non répondants. Nous utilisons des méthodes de Monte Carlo par chaîne de Markov pour ajuster les modèles (deux modèles de sélection et deux modèles de mélange de schémas d'observation) aux données sur l'IMC provenant de la NHANES III. Au moyen d'une mesure de déviance et d'une étude de validation croisée, nous montrons que le modèle de sélection sous non réponse non-ignorable est le meilleur des quatre modèles. Nous montrons aussi que l'inférence au sujet de l'IMC n'est pas trop sensible au choix du modèle. Nous obtenons une amélioration en incluant une régression spline dans le modèle de sélection pour tenir compte de l'évolution de la relation entre l'IMC et l'âge.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018091
    Description :

    Diverses procédures en vue de construire des vecteurs de poids de régression non négatifs sont considérées. Un vecteur de poids de régression dans lequel les poids initiaux sont les inverses des probabilités de sélection conditionnelles approximatives est présenté. Une étude par simulation permet de comparer les poids obtenus par la régression pondérée, la programmation quadratique, la méthode itérative du quotient, une procédure logit et la méthode du maximum de vraisemblance.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018092
    Description :

    En échantillonnage, quand on dispose d'information auxiliaire, il est bien connu que l'« estimateur (par la régression) optimal » fondé sur le plan de sondage d'un total ou d'une moyenne de population finie est (du moins asymptotiquement) plus efficace que l'estimateur GREG correspondant. Nous illustrerons ce fait au moyen de simulations avec échantillonnage stratifié à partir de populations à distribution asymétrique. Au départ, l'estimateur GREG a été construit au moyen d'un modèle linéaire de superpopulation auxiliaire. Il peut aussi être considéré comme un estimateur par calage, c'est à dire un estimateur linéaire pondéré, où les poids obéissent à l'équation de calage et, sous cette contrainte, sont aussi proches que possible des « poids d'Horvitz Thompson » originaux (d'après une mesure de distance appropriée). Nous montrons que l'estimateur optimal peut aussi être considéré comme un estimateur par calage à cet égard avec une mesure quadratique de distance étroitement liée à celle générant l'estimateur GREG. Nous donnons aussi des exemples simples révélant qu'il n'est pas toujours facile d'obtenir cette nouvelle mesure.

    Date de diffusion : 2005-07-21

  • Articles et rapports : 12-001-X20050018093
    Description :

    Il est fréquent de se servir de l'expression bien connue de l'effet du plan dû à la mise en grappes élaborée par Kish pour éclairer le processus d'élaboration du plan d'échantillonnage en utilisant une approximation telle que b_barre à la place de b. Cependant, si le plan comprend une pondération ou une variation de la taille des grappes, cette approximation peut être médiocre. Dans le présent article, nous discutons de la sensibilité de l'approximation aux écarts par rapport aux hypothèses implicites et proposons une approximation de rechange.

    Date de diffusion : 2005-07-21
Revues et périodiques (1)

Revues et périodiques (1) ((1 résultat))

  • Revues et périodiques : 87-003-X
    Géographie : Canada
    Description :

    Info-voyages est un bulletin trimestriel d'information qui analyse les tendances des voyages internationaux, les comptes de voyages internationaux et l'indice des prix des voyages. De plus, on y présente les plus récents indicateurs du tourisme et des articles de fond relatifs au tourisme.

    Date de diffusion : 2005-01-26
Date de modification :