Aide à l'ordre
entrées

Résultats

Tout (42)

Tout (42) (0 à 10 de 42 résultats)

  • Articles et rapports : 12-001-X202300200002
    Description : Il est essentiel de pouvoir quantifier l’exactitude (biais, variance) des résultats publiés dans les statistiques officielles. Dans ces dernières, les résultats sont presque toujours divisés en sous-populations selon une variable de classification, comme le revenu moyen par catégorie de niveau de scolarité. Ces résultats sont également appelés « statistiques de domaine ». Dans le présent article, nous nous limitons aux variables de classification binaire. En pratique, des erreurs de classification se produisent et contribuent au biais et à la variance des statistiques de domaine. Les méthodes analytiques et numériques servant actuellement à estimer cet effet présentent deux inconvénients. Le premier inconvénient est qu’elles exigent que les probabilités de classification erronée soient connues au préalable et le deuxième est que les estimations du biais et de la variance sont elles-mêmes biaisées. Dans le présent article, nous présentons une nouvelle méthode, un modèle de mélange gaussien estimé par un algorithme espérance-maximisation (EM) combiné à un bootstrap, appelé « méthode bootstrap EM ». Cette nouvelle méthode n’exige pas que les probabilités de classification erronée soient connues au préalable, bien qu’elle soit plus efficace quand on utilise un petit échantillon de vérification qui donne une valeur de départ pour les probabilités de classification erronée dans l’algorithme EM. Nous avons comparé le rendement de la nouvelle méthode et celui des méthodes numériques actuellement disponibles, à savoir la méthode bootstrap et la méthode SIMEX. Des études antérieures ont démontré que pour les paramètres non linéaires, le bootstrap donne de meilleurs résultats que les expressions analytiques. Pour presque toutes les conditions mises à l’essai, les estimations du biais et de la variance obtenues par la méthode bootstrap EM sont plus proches de leurs vraies valeurs que celles obtenues par les méthodes bootstrap et SIMEX. Nous terminons l’article par une discussion sur les résultats et d’éventuels prolongements de la méthode.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300100004
    Description : L’Enquête sur la santé aux Pays-Bas (ESP), menée par Statistique Pays-Bas, est conçue pour produire des estimations directes fiables selon une fréquence annuelle. La collecte des données est fondée sur une combinaison d’interviews Web et d’interviews sur place. En raison des mesures de confinement prises pendant la pandémie de COVID-19, peu ou pas d’interviews sur place ont pu être effectuées, ce qui a entraîné des variations soudaines d’effets de mesure et de sélection sur les résultats de l’enquête. De plus, la production de données annuelles sur l’effet de la COVID-19 sur des thèmes liés à la santé ayant un délai d’un an nuit à la pertinence de l’enquête. La taille de l’échantillon de l’ESP ne permet pas d’obtenir des résultats pour des périodes de référence plus courtes. Dans les deux cas, le problème est résolu en élaborant un modèle de séries chronologiques structurel (MSCS) bivarié en vue d’estimer les résultats trimestriels pour huit indicateurs clés de la santé. Ce modèle combine deux séries d’estimations directes, une série fondée sur des réponses complètes et une série fondée sur des réponses fournies par Internet seulement et permet d’obtenir des prévisions fondées sur le modèle pour les indicateurs qui sont corrigés en raison des pertes subies par l’arrêt ou la diminution des interviews sur place pendant les périodes de confinement. Le modèle est également utilisé comme une forme d’estimation sur petits domaines et tire des renseignements des échantillons des périodes de référence précédentes. Des statistiques à jour et pertinentes décrivant les effets de la pandémie de COVID-19 sur la santé aux Pays-Bas sont ainsi publiées. Dans le présent article, la méthode fondée sur le MSCS bivarié est comparée à deux autres méthodes. La première emploie un MSCS univarié où aucune correction n’est apportée aux estimations en raison des pertes subies par l’arrêt ou la diminution des interviews sur place. La deuxième utilise un MSCS univarié doté également d’une variable d’intervention modélisant l’effet de cette perte de réponses en raison de l’arrêt ou de la diminution des interviews sur place pendant le confinement.
    Date de diffusion : 2023-06-30

  • Articles et rapports : 12-001-X202200200010
    Description :

    Des modèles de séries chronologiques multiniveaux sont appliqués pour estimer les tendances de séries chronologiques de la couverture des soins prénataux à plusieurs niveaux administratifs du Bangladesh, d’après les cycles répétés de la Bangladesh Demographic and Health Survey (BDHS, Enquête démographique et sur la santé du Bangladesh) pendant la période allant de 1994 à 2014. Les modèles de séries chronologiques multiniveaux sont exprimés dans un cadre bayésien hiérarchique et ajustés au moyen de simulations Monte Carlo par chaînes de Markov. Les modèles tiennent compte des intervalles variables de trois ou quatre ans entre les cycles de la BDHS et fournissent aussi des prédictions pour les années intermédiaires. Il est proposé d’appliquer les modèles transversaux de Fay-Herriot aux années d’enquête séparément au niveau des districts, soit l’échelle régionale la plus détaillée. Les séries chronologiques de ces prédictions pour petits domaines au niveau des districts et leurs matrices de variance-covariance sont utilisées comme séries de données d’entrée pour les modèles de séries chronologiques multiniveaux. Dans ces modèles, on examine les corrélations spatiales entre les districts, la pente et l’ordonnée à l’origine aléatoires au niveau des districts, ainsi que les différents modèles de tendance au niveau des districts et aux niveaux régionaux plus élevés pour l’emprunt d’information dans le temps et l’espace. Les estimations des tendances au niveau des districts sont obtenues directement à partir des résultats des modèles, tandis que les estimations des tendances à des échelons régionaux et nationaux plus élevés sont obtenues par agrégation des prédictions au niveau des districts, ce qui donne un ensemble cohérent d’estimations des tendances sur le plan numérique.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200100008
    Description :

    La méthode d’imputation multiple à classes latentes (IMCL) allie l’imputation multiple à l’analyse de classe latente afin de corriger une classification erronée dans des ensembles de données combinés. De plus, l’IMCL permet de générer un ensemble de données multi-imputé qu’il est possible d’utiliser pour l’estimation directe de différentes statistiques, faisant en sorte que l’incertitude due à une classification erronée soit intégrée au moment d’estimer la variance totale. Dans la présente étude, les auteurs ont examiné la façon dont il est possible d’ajuster la méthode d’IMCL pour l’utiliser à des fins de recensement. Ils ont plus précisément étudié le mode de prise en charge, par la méthode d’IMCL, d’un registre de population fini et complet, la façon dont la méthode permet de corriger simultanément une classification erronée de multiples variables latentes et la façon dont elle permet d’intégrer plusieurs restrictions de vérification. Une étude par simulations montre que la méthode d’IMCL peut habituellement reproduire des fréquences par cellule dans des tableaux à basse et à haute dimensionnalité, comportant de faibles quantités de biais. Il est en outre possible d’estimer adéquatement la variance, même si elle est surestimée lorsque les fréquences par cellule sont moindres.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X202100100008
    Description :

    Les changements dans le plan d’une enquête répétée entraînent généralement des effets systématiques dans les estimations de l’échantillon, qu’on appellera discontinuités dans la suite du texte. Pour ne pas confondre les changements réels d’une période à l’autre avec les effets d’un remaniement, on quantifie souvent les discontinuités en mettant en œuvre parallèlement le plan précédent et le nouveau pendant un certain temps. Les tailles d’échantillon de ces exécutions parallèles sont généralement trop petites pour que des estimateurs directs puissent être appliqués aux discontinuités des domaines. On propose un modèle de Fay-Herriot (FH) hiérarchique bayésien bivarié pour prédire plus précisément les discontinuités de domaine et on l’applique à un remaniement de l’enquête néerlandaise sur la victimisation criminelle (Dutch Crime Victimzation Survey). Cette méthode est comparée à un modèle de FH univarié où les estimations directes selon l’approche ordinaire sont utilisées comme covariables dans un modèle de FH pour l’autre approche appliquée sur une taille d’échantillon réduite et un modèle de FH univarié où les estimations directes des discontinuités sont modélisées directement. On propose une procédure de sélection ascendante corrigée qui minimise le critère d’information de Watanabe-Akaike (Watanabe-Akaike Information Criterion ou WAIC) jusqu’à ce que la réduction du WAIC soit inférieure à l’erreur-type de ce critère. Au moyen de cette approche, on choisit des modèles plus parcimonieux, ce qui empêche de sélectionner des modèles complexes qui tendent à surajuster les données.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X201900300001
    Description :

    Les estimateurs de la variance par linéarisation classiques de l’estimateur par la régression généralisée sont souvent trop petits, ce qui entraîne des intervalles de confiance ne donnant pas le taux de couverture souhaité. Pour remédier à ce problème, on peut apporter des ajustements à la matrice chapeau dans l’échantillonnage à deux degrés. Nous présentons la théorie de plusieurs nouveaux estimateurs de la variance et les comparons aux estimateurs classiques dans une série de simulations. Les estimateurs proposés corrigent les biais négatifs et améliorent les taux de couverture de l’intervalle de confiance dans diverses situations correspondant à celles rencontrées en pratique.

    Date de diffusion : 2019-12-17

  • Articles et rapports : 12-001-X201900300005
    Description :

    On obtient les estimations mensuelles du chômage provincial fondées sur l’Enquête sur la population active (EPA) des Pays-Bas au moyen de modèles de séries chronologiques. Les modèles tiennent compte du biais de renouvellement et de la corrélation sérielle causée par le plan d’échantillonnage à panel rotatif de l’EPA. L’article compare deux méthodes d’estimation de modèles de séries chronologiques structurels (MSCS). Dans la première méthode, les MSCS sont exprimés sous forme de modèles espace-état, auxquels sont appliqués le filtre et le lisseur de Kalman dans un cadre fréquentiste. L’autre solution consiste à exprimer ces MSCS sous forme de modèles multiniveaux de séries chronologiques dans un cadre bayésien hiérarchique et à les estimer à l’aide de l’échantillonneur de Gibbs. Nous comparons ici les estimations mensuelles du chômage et les erreurs-types fondées sur ces modèles pour les 12 provinces des Pays-Bas. Nous discutons ensuite des avantages et des inconvénients de la méthode multiniveau et de la méthode espace-état. Les MSCS multivariés conviennent pour l’emprunt d’information dans le temps et l’espace. La modélisation de la matrice de corrélation complète entre les composantes des séries chronologiques accroît rapidement le nombre d’hyperparamètres qu’il faut estimer. La modélisation de facteur commun est une des façons possibles d’obtenir des modèles plus parcimonieux qui continuent de tenir compte de la corrélation transversale. L’article propose une méthode encore plus parcimonieuse, dans laquelle les domaines ont en commun une tendance globale et leurs propres tendances indépendantes pour les écarts propres au domaine par rapport à la tendance globale. L’approche par modélisation de séries chronologiques est particulièrement adaptée à l’estimation de la variation mensuelle du chômage.

    Date de diffusion : 2019-12-17

  • Articles et rapports : 12-001-X201900100004
    Description :

    Dans le présent document, nous utilisons de l’information auxiliaire pour améliorer l’efficacité des estimations des paramètres de la régression quantile censurée. En utilisant l’information présentée dans des études antérieures, nous avons calculé des probabilités au moyen de la vraisemblance empirique comme poids et avons proposé la régression quantile censurée pondérée. Les propriétés théoriques de la méthode proposée sont obtenues. Nos études par simulation démontrent que la méthode que nous proposons présente des avantages comparativement à la régression quantile censurée standard.

    Date de diffusion : 2019-05-07

  • Articles et rapports : 12-001-X201800154963
    Description :

    Le cadre fondé sur l’échantillonnage probabiliste a joué un rôle dominant en recherche par sondage, parce qu’il fournit des outils mathématiques précis pour évaluer la variabilité d’échantillonnage. Toutefois, en raison de la hausse des coûts et de la baisse des taux de réponse, l’usage d’échantillons non probabilistes s’accroît, particulièrement dans le cas de populations générales, pour lesquelles le tirage d’échantillons à partir d’enquêtes en ligne devient de plus en plus économique et facile. Cependant, les échantillons non probabilistes posent un risque de biais de sélection dû à des différences d’accès et de degrés d’intérêt, ainsi qu’à d’autres facteurs. Le calage sur des totaux statistiques connus dans la population offre un moyen de réduire éventuellement l’effet du biais de sélection dans les échantillons non probabilistes. Ici, nous montrons que le calage assisté par un modèle en utilisant le LASSO adaptatif peut donner un estimateur convergent d’un total de population à condition qu’un sous-ensemble des variables explicatives réelles soit inclus dans le modèle de prédiction, permettant ainsi qu’un grand nombre de covariables possibles soit incluses sans risque de surajustement. Nous montrons que le calage assisté par un modèle en utilisant le LASSO adaptatif produit une meilleure estimation, pour ce qui est de l’erreur quadratique moyenne, que les méthodes concurrentes classiques, tels les estimateurs par la régression généralisée (GREG), quand un grand nombre de covariables sont nécessaires pour déterminer le modèle réel, sans vraiment qu’il y ait perte d’efficacité par rapport à la méthode GREG quand de plus petits modèles suffisent. Nous obtenons aussi des formules analytiques pour les estimateurs de variance des totaux de population, et comparons le comportement de ces estimateurs aux estimateurs bootstrap. Nous concluons par un exemple réel en utilisant des données provenant de la National Health Interview Survey.

    Date de diffusion : 2018-06-21

  • Articles et rapports : 12-001-X201700254871
    Description :

    L’article aborde la question de savoir comment utiliser des sources de données de rechange, telles que les données administratives et les données des médias sociaux, pour produire les statistiques officielles. Puisque la plupart des enquêtes réalisées par les instituts nationaux de statistique sont répétées au cours du temps, nous proposons une approche de modélisation de séries chronologiques structurelle multivariée en vue de modéliser les séries observées au moyen d’une enquête répétée avec les séries correspondantes obtenues à partir de ces sources de données de rechange. En général, cette approche améliore la précision des estimations directes issues de l’enquête grâce à l’utilisation de données d’enquête observées aux périodes précédentes et de données provenant de séries auxiliaires connexes. Ce modèle permet aussi de profiter de la plus grande fréquence des données des médias sociaux pour produire des estimations plus précises en temps réel pour l’enquête par sondage, au moment où les statistiques pour les médias sociaux deviennent disponibles alors que les données d’enquête ne le sont pas encore. Le recours au concept de cointégration permet d’examiner dans quelle mesure la série de rechange représente les mêmes phénomènes que la série observée au moyen de l’enquête répétée. La méthodologie est appliquée à l’Enquête sur la confiance des consommateurs des Pays-Bas et à un indice de sentiments dérivé des médias sociaux.

    Date de diffusion : 2017-12-21
Stats en bref (0)

Stats en bref (0) (0 résultat)

Aucun contenu disponible actuellement

Articles et rapports (42)

Articles et rapports (42) (0 à 10 de 42 résultats)

  • Articles et rapports : 12-001-X202300200002
    Description : Il est essentiel de pouvoir quantifier l’exactitude (biais, variance) des résultats publiés dans les statistiques officielles. Dans ces dernières, les résultats sont presque toujours divisés en sous-populations selon une variable de classification, comme le revenu moyen par catégorie de niveau de scolarité. Ces résultats sont également appelés « statistiques de domaine ». Dans le présent article, nous nous limitons aux variables de classification binaire. En pratique, des erreurs de classification se produisent et contribuent au biais et à la variance des statistiques de domaine. Les méthodes analytiques et numériques servant actuellement à estimer cet effet présentent deux inconvénients. Le premier inconvénient est qu’elles exigent que les probabilités de classification erronée soient connues au préalable et le deuxième est que les estimations du biais et de la variance sont elles-mêmes biaisées. Dans le présent article, nous présentons une nouvelle méthode, un modèle de mélange gaussien estimé par un algorithme espérance-maximisation (EM) combiné à un bootstrap, appelé « méthode bootstrap EM ». Cette nouvelle méthode n’exige pas que les probabilités de classification erronée soient connues au préalable, bien qu’elle soit plus efficace quand on utilise un petit échantillon de vérification qui donne une valeur de départ pour les probabilités de classification erronée dans l’algorithme EM. Nous avons comparé le rendement de la nouvelle méthode et celui des méthodes numériques actuellement disponibles, à savoir la méthode bootstrap et la méthode SIMEX. Des études antérieures ont démontré que pour les paramètres non linéaires, le bootstrap donne de meilleurs résultats que les expressions analytiques. Pour presque toutes les conditions mises à l’essai, les estimations du biais et de la variance obtenues par la méthode bootstrap EM sont plus proches de leurs vraies valeurs que celles obtenues par les méthodes bootstrap et SIMEX. Nous terminons l’article par une discussion sur les résultats et d’éventuels prolongements de la méthode.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300100004
    Description : L’Enquête sur la santé aux Pays-Bas (ESP), menée par Statistique Pays-Bas, est conçue pour produire des estimations directes fiables selon une fréquence annuelle. La collecte des données est fondée sur une combinaison d’interviews Web et d’interviews sur place. En raison des mesures de confinement prises pendant la pandémie de COVID-19, peu ou pas d’interviews sur place ont pu être effectuées, ce qui a entraîné des variations soudaines d’effets de mesure et de sélection sur les résultats de l’enquête. De plus, la production de données annuelles sur l’effet de la COVID-19 sur des thèmes liés à la santé ayant un délai d’un an nuit à la pertinence de l’enquête. La taille de l’échantillon de l’ESP ne permet pas d’obtenir des résultats pour des périodes de référence plus courtes. Dans les deux cas, le problème est résolu en élaborant un modèle de séries chronologiques structurel (MSCS) bivarié en vue d’estimer les résultats trimestriels pour huit indicateurs clés de la santé. Ce modèle combine deux séries d’estimations directes, une série fondée sur des réponses complètes et une série fondée sur des réponses fournies par Internet seulement et permet d’obtenir des prévisions fondées sur le modèle pour les indicateurs qui sont corrigés en raison des pertes subies par l’arrêt ou la diminution des interviews sur place pendant les périodes de confinement. Le modèle est également utilisé comme une forme d’estimation sur petits domaines et tire des renseignements des échantillons des périodes de référence précédentes. Des statistiques à jour et pertinentes décrivant les effets de la pandémie de COVID-19 sur la santé aux Pays-Bas sont ainsi publiées. Dans le présent article, la méthode fondée sur le MSCS bivarié est comparée à deux autres méthodes. La première emploie un MSCS univarié où aucune correction n’est apportée aux estimations en raison des pertes subies par l’arrêt ou la diminution des interviews sur place. La deuxième utilise un MSCS univarié doté également d’une variable d’intervention modélisant l’effet de cette perte de réponses en raison de l’arrêt ou de la diminution des interviews sur place pendant le confinement.
    Date de diffusion : 2023-06-30

  • Articles et rapports : 12-001-X202200200010
    Description :

    Des modèles de séries chronologiques multiniveaux sont appliqués pour estimer les tendances de séries chronologiques de la couverture des soins prénataux à plusieurs niveaux administratifs du Bangladesh, d’après les cycles répétés de la Bangladesh Demographic and Health Survey (BDHS, Enquête démographique et sur la santé du Bangladesh) pendant la période allant de 1994 à 2014. Les modèles de séries chronologiques multiniveaux sont exprimés dans un cadre bayésien hiérarchique et ajustés au moyen de simulations Monte Carlo par chaînes de Markov. Les modèles tiennent compte des intervalles variables de trois ou quatre ans entre les cycles de la BDHS et fournissent aussi des prédictions pour les années intermédiaires. Il est proposé d’appliquer les modèles transversaux de Fay-Herriot aux années d’enquête séparément au niveau des districts, soit l’échelle régionale la plus détaillée. Les séries chronologiques de ces prédictions pour petits domaines au niveau des districts et leurs matrices de variance-covariance sont utilisées comme séries de données d’entrée pour les modèles de séries chronologiques multiniveaux. Dans ces modèles, on examine les corrélations spatiales entre les districts, la pente et l’ordonnée à l’origine aléatoires au niveau des districts, ainsi que les différents modèles de tendance au niveau des districts et aux niveaux régionaux plus élevés pour l’emprunt d’information dans le temps et l’espace. Les estimations des tendances au niveau des districts sont obtenues directement à partir des résultats des modèles, tandis que les estimations des tendances à des échelons régionaux et nationaux plus élevés sont obtenues par agrégation des prédictions au niveau des districts, ce qui donne un ensemble cohérent d’estimations des tendances sur le plan numérique.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200100008
    Description :

    La méthode d’imputation multiple à classes latentes (IMCL) allie l’imputation multiple à l’analyse de classe latente afin de corriger une classification erronée dans des ensembles de données combinés. De plus, l’IMCL permet de générer un ensemble de données multi-imputé qu’il est possible d’utiliser pour l’estimation directe de différentes statistiques, faisant en sorte que l’incertitude due à une classification erronée soit intégrée au moment d’estimer la variance totale. Dans la présente étude, les auteurs ont examiné la façon dont il est possible d’ajuster la méthode d’IMCL pour l’utiliser à des fins de recensement. Ils ont plus précisément étudié le mode de prise en charge, par la méthode d’IMCL, d’un registre de population fini et complet, la façon dont la méthode permet de corriger simultanément une classification erronée de multiples variables latentes et la façon dont elle permet d’intégrer plusieurs restrictions de vérification. Une étude par simulations montre que la méthode d’IMCL peut habituellement reproduire des fréquences par cellule dans des tableaux à basse et à haute dimensionnalité, comportant de faibles quantités de biais. Il est en outre possible d’estimer adéquatement la variance, même si elle est surestimée lorsque les fréquences par cellule sont moindres.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X202100100008
    Description :

    Les changements dans le plan d’une enquête répétée entraînent généralement des effets systématiques dans les estimations de l’échantillon, qu’on appellera discontinuités dans la suite du texte. Pour ne pas confondre les changements réels d’une période à l’autre avec les effets d’un remaniement, on quantifie souvent les discontinuités en mettant en œuvre parallèlement le plan précédent et le nouveau pendant un certain temps. Les tailles d’échantillon de ces exécutions parallèles sont généralement trop petites pour que des estimateurs directs puissent être appliqués aux discontinuités des domaines. On propose un modèle de Fay-Herriot (FH) hiérarchique bayésien bivarié pour prédire plus précisément les discontinuités de domaine et on l’applique à un remaniement de l’enquête néerlandaise sur la victimisation criminelle (Dutch Crime Victimzation Survey). Cette méthode est comparée à un modèle de FH univarié où les estimations directes selon l’approche ordinaire sont utilisées comme covariables dans un modèle de FH pour l’autre approche appliquée sur une taille d’échantillon réduite et un modèle de FH univarié où les estimations directes des discontinuités sont modélisées directement. On propose une procédure de sélection ascendante corrigée qui minimise le critère d’information de Watanabe-Akaike (Watanabe-Akaike Information Criterion ou WAIC) jusqu’à ce que la réduction du WAIC soit inférieure à l’erreur-type de ce critère. Au moyen de cette approche, on choisit des modèles plus parcimonieux, ce qui empêche de sélectionner des modèles complexes qui tendent à surajuster les données.

    Date de diffusion : 2021-06-24

  • Articles et rapports : 12-001-X201900300001
    Description :

    Les estimateurs de la variance par linéarisation classiques de l’estimateur par la régression généralisée sont souvent trop petits, ce qui entraîne des intervalles de confiance ne donnant pas le taux de couverture souhaité. Pour remédier à ce problème, on peut apporter des ajustements à la matrice chapeau dans l’échantillonnage à deux degrés. Nous présentons la théorie de plusieurs nouveaux estimateurs de la variance et les comparons aux estimateurs classiques dans une série de simulations. Les estimateurs proposés corrigent les biais négatifs et améliorent les taux de couverture de l’intervalle de confiance dans diverses situations correspondant à celles rencontrées en pratique.

    Date de diffusion : 2019-12-17

  • Articles et rapports : 12-001-X201900300005
    Description :

    On obtient les estimations mensuelles du chômage provincial fondées sur l’Enquête sur la population active (EPA) des Pays-Bas au moyen de modèles de séries chronologiques. Les modèles tiennent compte du biais de renouvellement et de la corrélation sérielle causée par le plan d’échantillonnage à panel rotatif de l’EPA. L’article compare deux méthodes d’estimation de modèles de séries chronologiques structurels (MSCS). Dans la première méthode, les MSCS sont exprimés sous forme de modèles espace-état, auxquels sont appliqués le filtre et le lisseur de Kalman dans un cadre fréquentiste. L’autre solution consiste à exprimer ces MSCS sous forme de modèles multiniveaux de séries chronologiques dans un cadre bayésien hiérarchique et à les estimer à l’aide de l’échantillonneur de Gibbs. Nous comparons ici les estimations mensuelles du chômage et les erreurs-types fondées sur ces modèles pour les 12 provinces des Pays-Bas. Nous discutons ensuite des avantages et des inconvénients de la méthode multiniveau et de la méthode espace-état. Les MSCS multivariés conviennent pour l’emprunt d’information dans le temps et l’espace. La modélisation de la matrice de corrélation complète entre les composantes des séries chronologiques accroît rapidement le nombre d’hyperparamètres qu’il faut estimer. La modélisation de facteur commun est une des façons possibles d’obtenir des modèles plus parcimonieux qui continuent de tenir compte de la corrélation transversale. L’article propose une méthode encore plus parcimonieuse, dans laquelle les domaines ont en commun une tendance globale et leurs propres tendances indépendantes pour les écarts propres au domaine par rapport à la tendance globale. L’approche par modélisation de séries chronologiques est particulièrement adaptée à l’estimation de la variation mensuelle du chômage.

    Date de diffusion : 2019-12-17

  • Articles et rapports : 12-001-X201900100004
    Description :

    Dans le présent document, nous utilisons de l’information auxiliaire pour améliorer l’efficacité des estimations des paramètres de la régression quantile censurée. En utilisant l’information présentée dans des études antérieures, nous avons calculé des probabilités au moyen de la vraisemblance empirique comme poids et avons proposé la régression quantile censurée pondérée. Les propriétés théoriques de la méthode proposée sont obtenues. Nos études par simulation démontrent que la méthode que nous proposons présente des avantages comparativement à la régression quantile censurée standard.

    Date de diffusion : 2019-05-07

  • Articles et rapports : 12-001-X201800154963
    Description :

    Le cadre fondé sur l’échantillonnage probabiliste a joué un rôle dominant en recherche par sondage, parce qu’il fournit des outils mathématiques précis pour évaluer la variabilité d’échantillonnage. Toutefois, en raison de la hausse des coûts et de la baisse des taux de réponse, l’usage d’échantillons non probabilistes s’accroît, particulièrement dans le cas de populations générales, pour lesquelles le tirage d’échantillons à partir d’enquêtes en ligne devient de plus en plus économique et facile. Cependant, les échantillons non probabilistes posent un risque de biais de sélection dû à des différences d’accès et de degrés d’intérêt, ainsi qu’à d’autres facteurs. Le calage sur des totaux statistiques connus dans la population offre un moyen de réduire éventuellement l’effet du biais de sélection dans les échantillons non probabilistes. Ici, nous montrons que le calage assisté par un modèle en utilisant le LASSO adaptatif peut donner un estimateur convergent d’un total de population à condition qu’un sous-ensemble des variables explicatives réelles soit inclus dans le modèle de prédiction, permettant ainsi qu’un grand nombre de covariables possibles soit incluses sans risque de surajustement. Nous montrons que le calage assisté par un modèle en utilisant le LASSO adaptatif produit une meilleure estimation, pour ce qui est de l’erreur quadratique moyenne, que les méthodes concurrentes classiques, tels les estimateurs par la régression généralisée (GREG), quand un grand nombre de covariables sont nécessaires pour déterminer le modèle réel, sans vraiment qu’il y ait perte d’efficacité par rapport à la méthode GREG quand de plus petits modèles suffisent. Nous obtenons aussi des formules analytiques pour les estimateurs de variance des totaux de population, et comparons le comportement de ces estimateurs aux estimateurs bootstrap. Nous concluons par un exemple réel en utilisant des données provenant de la National Health Interview Survey.

    Date de diffusion : 2018-06-21

  • Articles et rapports : 12-001-X201700254871
    Description :

    L’article aborde la question de savoir comment utiliser des sources de données de rechange, telles que les données administratives et les données des médias sociaux, pour produire les statistiques officielles. Puisque la plupart des enquêtes réalisées par les instituts nationaux de statistique sont répétées au cours du temps, nous proposons une approche de modélisation de séries chronologiques structurelle multivariée en vue de modéliser les séries observées au moyen d’une enquête répétée avec les séries correspondantes obtenues à partir de ces sources de données de rechange. En général, cette approche améliore la précision des estimations directes issues de l’enquête grâce à l’utilisation de données d’enquête observées aux périodes précédentes et de données provenant de séries auxiliaires connexes. Ce modèle permet aussi de profiter de la plus grande fréquence des données des médias sociaux pour produire des estimations plus précises en temps réel pour l’enquête par sondage, au moment où les statistiques pour les médias sociaux deviennent disponibles alors que les données d’enquête ne le sont pas encore. Le recours au concept de cointégration permet d’examiner dans quelle mesure la série de rechange représente les mêmes phénomènes que la série observée au moyen de l’enquête répétée. La méthodologie est appliquée à l’Enquête sur la confiance des consommateurs des Pays-Bas et à un indice de sentiments dérivé des médias sociaux.

    Date de diffusion : 2017-12-21
Revues et périodiques (0)

Revues et périodiques (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :