Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Année de publication

6 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (7)

Tout (7) ((7 résultats))

  • Articles et rapports : 11-522-X202200100012
    Description : Au Bureau central de la statistique des Pays-Bas (CBS), pour certains secteurs économiques, deux séries d’indices de chiffre d’affaires intra-annuels partiellement indépendantes sont disponibles : une série mensuelle fondée sur des données d’enquête et une série trimestrielle fondée sur les données de la taxe sur la valeur ajoutée pour les petites unités et sur des données d’enquête réutilisées pour les autres unités. Le CBS vise à étalonner la série mensuelle d’indices de chiffre d’affaires aux données trimestrielles du recensement à une fréquence trimestrielle. Pour l’heure, cela n’est pas réalisable, car les données fiscales ont une distribution trimestrielle différente, le chiffre d’affaires étant relativement grand au quatrième trimestre de l’année et plus faible au premier trimestre. Dans la présente étude, nous cherchons à décrire cette tendance trimestrielle présentant un écart au niveau micro. Nous avons élaboré auparavant un modèle de mélange utilisant des niveaux de chiffre d’affaires absolus pouvant expliquer en partie les distributions trimestrielles. Étant donné que les niveaux de chiffre d’affaires absolus diffèrent entre les deux séries, nous utilisons dans la présente étude un modèle fondé sur les niveaux de chiffre d’affaires trimestriels relatifs au cours d’une année.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 12-001-X202300200002
    Description : Il est essentiel de pouvoir quantifier l’exactitude (biais, variance) des résultats publiés dans les statistiques officielles. Dans ces dernières, les résultats sont presque toujours divisés en sous-populations selon une variable de classification, comme le revenu moyen par catégorie de niveau de scolarité. Ces résultats sont également appelés « statistiques de domaine ». Dans le présent article, nous nous limitons aux variables de classification binaire. En pratique, des erreurs de classification se produisent et contribuent au biais et à la variance des statistiques de domaine. Les méthodes analytiques et numériques servant actuellement à estimer cet effet présentent deux inconvénients. Le premier inconvénient est qu’elles exigent que les probabilités de classification erronée soient connues au préalable et le deuxième est que les estimations du biais et de la variance sont elles-mêmes biaisées. Dans le présent article, nous présentons une nouvelle méthode, un modèle de mélange gaussien estimé par un algorithme espérance-maximisation (EM) combiné à un bootstrap, appelé « méthode bootstrap EM ». Cette nouvelle méthode n’exige pas que les probabilités de classification erronée soient connues au préalable, bien qu’elle soit plus efficace quand on utilise un petit échantillon de vérification qui donne une valeur de départ pour les probabilités de classification erronée dans l’algorithme EM. Nous avons comparé le rendement de la nouvelle méthode et celui des méthodes numériques actuellement disponibles, à savoir la méthode bootstrap et la méthode SIMEX. Des études antérieures ont démontré que pour les paramètres non linéaires, le bootstrap donne de meilleurs résultats que les expressions analytiques. Pour presque toutes les conditions mises à l’essai, les estimations du biais et de la variance obtenues par la méthode bootstrap EM sont plus proches de leurs vraies valeurs que celles obtenues par les méthodes bootstrap et SIMEX. Nous terminons l’article par une discussion sur les résultats et d’éventuels prolongements de la méthode.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202200100008
    Description :

    La méthode d’imputation multiple à classes latentes (IMCL) allie l’imputation multiple à l’analyse de classe latente afin de corriger une classification erronée dans des ensembles de données combinés. De plus, l’IMCL permet de générer un ensemble de données multi-imputé qu’il est possible d’utiliser pour l’estimation directe de différentes statistiques, faisant en sorte que l’incertitude due à une classification erronée soit intégrée au moment d’estimer la variance totale. Dans la présente étude, les auteurs ont examiné la façon dont il est possible d’ajuster la méthode d’IMCL pour l’utiliser à des fins de recensement. Ils ont plus précisément étudié le mode de prise en charge, par la méthode d’IMCL, d’un registre de population fini et complet, la façon dont la méthode permet de corriger simultanément une classification erronée de multiples variables latentes et la façon dont elle permet d’intégrer plusieurs restrictions de vérification. Une étude par simulations montre que la méthode d’IMCL peut habituellement reproduire des fréquences par cellule dans des tableaux à basse et à haute dimensionnalité, comportant de faibles quantités de biais. Il est en outre possible d’estimer adéquatement la variance, même si elle est surestimée lorsque les fréquences par cellule sont moindres.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X201900300003
    Description :

    Les formules largement utilisées pour la variance de l’estimateur par le ratio peuvent mener à une sérieuse sous-estimation quand l’échantillon est de petite taille; voir Sukhatme (1954), Koop (1968), Rao (1969) et Cochran (1977, pages 163 et 164). Nous proposons ici comme solution à ce problème classique de nouveaux estimateurs de la variance et de l’erreur quadratique moyenne de l’estimateur par le ratio qui ne sont pas entachés d’un important biais négatif. Des formules d’estimation semblables peuvent s’obtenir pour d’autres estimateurs par le ratio, comme il en est question dans Tin (1965). Nous comparons trois estimateurs de l’erreur quadratique moyenne de l’estimateur par le ratio dans une étude par simulation.

    Date de diffusion : 2019-12-17

  • Articles et rapports : 12-001-X201600114538
    Description :

    La vérification automatique consiste en l’utilisation d’un ordinateur pour déceler et corriger sans intervention humaine les valeurs erronées dans un ensemble de données. La plupart des méthodes de vérification automatique actuellement employées aux fins de la statistique officielle sont fondées sur les travaux fondamentaux de Fellegi et Holt (1976). La mise en application de cette méthode dans la pratique révèle des différences systématiques entre les données vérifiées manuellement et celles qui sont vérifiées de façon automatisée, car l’humain est en mesure d’effectuer des opérations de vérification complexes. L’auteur du présent article propose une généralisation du paradigme de Fellegi-Holt qui permet d’intégrer de façon naturelle une grande catégorie d’opérations de vérification. Il présente aussi un algorithme qui résout le problème généralisé de localisation des erreurs qui en découle. Il est à espérer que cette généralisation puisse améliorer la pertinence des vérifications automatiques dans la pratique et ainsi accroître l’efficience des processus de vérification des données. Certains des premiers résultats obtenus à l’aide de données synthétiques sont prometteurs à cet égard.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201300111825
    Description :

    Une limite importante des méthodes actuelles de vérification automatique des données tient au fait que toutes les vérifications sont traitées comme des contraintes fermes. Autrement dit, un rejet à la vérification suppose systématiquement une erreur dans les données. Par contre, dans le cas de la vérification manuelle, les spécialistes du domaine recourent aussi à de très nombreuses vérifications avec avertissement, c'est-à-dire des contraintes destinées à repérer les valeurs et combinaisons de valeurs qui sont suspectes mais pas forcément incorrectes. L'incapacité des méthodes de vérification automatique à traiter les vérifications avec avertissement explique partiellement pourquoi, en pratique, de nombreuses différences sont constatées entre les données vérifiées manuellement et celles vérifiées automatiquement. L'objet du présent article est de présenter une nouvelle formulation du problème de localisation des erreurs qui permet de faire la distinction entre les vérifications avec rejet (hard edits) et les vérifications avec avertissement (soft edits). En outre, il montre comment ce problème peut être résolu grâce à une extension de l'algorithme de localisation des erreurs de De Waal et Quere (2003).

    Date de diffusion : 2013-06-28

  • Articles et rapports : 12-001-X198100154934
    Description :

    Dans les enquêtes, il arrive qu’une réponse soit incomplète ou que certains éléments soient incompatibles ou encore, que des éléments puissent manquer, comme dans le cas de l’échantillonnage à deux phases. Il peut alors être utile d’imputer des valeurs aux éléments manquants. Même si cette méthode n’offre pas une solution particulièrement bonne à un problème d’estimation donné, elle permet cependant la production d’estimations arbitraires d’une façon cohérente.

    Le statisticien enquêteur sera peut-être aux prises avec un mélange d’éléments numériques et qualitatifes qui seront assujettis à une variété de contraintes. Il doit évaluer sa technique, en particulier en ce qui concerne le biais, et veiller à ce que les éléments imputés soient nettement identifiés et que des rapports sommaires soient produits.

    L’auteur décrit diverses techniques d’imputation utilisées à l’heure actuelle et elle accorde une attention particulière aux problèmes pratiques en cause.

    Date de diffusion : 1981-06-15
Stats en bref (0)

Stats en bref (0) (0 résultat)

Aucun contenu disponible actuellement

Articles et rapports (7)

Articles et rapports (7) ((7 résultats))

  • Articles et rapports : 11-522-X202200100012
    Description : Au Bureau central de la statistique des Pays-Bas (CBS), pour certains secteurs économiques, deux séries d’indices de chiffre d’affaires intra-annuels partiellement indépendantes sont disponibles : une série mensuelle fondée sur des données d’enquête et une série trimestrielle fondée sur les données de la taxe sur la valeur ajoutée pour les petites unités et sur des données d’enquête réutilisées pour les autres unités. Le CBS vise à étalonner la série mensuelle d’indices de chiffre d’affaires aux données trimestrielles du recensement à une fréquence trimestrielle. Pour l’heure, cela n’est pas réalisable, car les données fiscales ont une distribution trimestrielle différente, le chiffre d’affaires étant relativement grand au quatrième trimestre de l’année et plus faible au premier trimestre. Dans la présente étude, nous cherchons à décrire cette tendance trimestrielle présentant un écart au niveau micro. Nous avons élaboré auparavant un modèle de mélange utilisant des niveaux de chiffre d’affaires absolus pouvant expliquer en partie les distributions trimestrielles. Étant donné que les niveaux de chiffre d’affaires absolus diffèrent entre les deux séries, nous utilisons dans la présente étude un modèle fondé sur les niveaux de chiffre d’affaires trimestriels relatifs au cours d’une année.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 12-001-X202300200002
    Description : Il est essentiel de pouvoir quantifier l’exactitude (biais, variance) des résultats publiés dans les statistiques officielles. Dans ces dernières, les résultats sont presque toujours divisés en sous-populations selon une variable de classification, comme le revenu moyen par catégorie de niveau de scolarité. Ces résultats sont également appelés « statistiques de domaine ». Dans le présent article, nous nous limitons aux variables de classification binaire. En pratique, des erreurs de classification se produisent et contribuent au biais et à la variance des statistiques de domaine. Les méthodes analytiques et numériques servant actuellement à estimer cet effet présentent deux inconvénients. Le premier inconvénient est qu’elles exigent que les probabilités de classification erronée soient connues au préalable et le deuxième est que les estimations du biais et de la variance sont elles-mêmes biaisées. Dans le présent article, nous présentons une nouvelle méthode, un modèle de mélange gaussien estimé par un algorithme espérance-maximisation (EM) combiné à un bootstrap, appelé « méthode bootstrap EM ». Cette nouvelle méthode n’exige pas que les probabilités de classification erronée soient connues au préalable, bien qu’elle soit plus efficace quand on utilise un petit échantillon de vérification qui donne une valeur de départ pour les probabilités de classification erronée dans l’algorithme EM. Nous avons comparé le rendement de la nouvelle méthode et celui des méthodes numériques actuellement disponibles, à savoir la méthode bootstrap et la méthode SIMEX. Des études antérieures ont démontré que pour les paramètres non linéaires, le bootstrap donne de meilleurs résultats que les expressions analytiques. Pour presque toutes les conditions mises à l’essai, les estimations du biais et de la variance obtenues par la méthode bootstrap EM sont plus proches de leurs vraies valeurs que celles obtenues par les méthodes bootstrap et SIMEX. Nous terminons l’article par une discussion sur les résultats et d’éventuels prolongements de la méthode.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202200100008
    Description :

    La méthode d’imputation multiple à classes latentes (IMCL) allie l’imputation multiple à l’analyse de classe latente afin de corriger une classification erronée dans des ensembles de données combinés. De plus, l’IMCL permet de générer un ensemble de données multi-imputé qu’il est possible d’utiliser pour l’estimation directe de différentes statistiques, faisant en sorte que l’incertitude due à une classification erronée soit intégrée au moment d’estimer la variance totale. Dans la présente étude, les auteurs ont examiné la façon dont il est possible d’ajuster la méthode d’IMCL pour l’utiliser à des fins de recensement. Ils ont plus précisément étudié le mode de prise en charge, par la méthode d’IMCL, d’un registre de population fini et complet, la façon dont la méthode permet de corriger simultanément une classification erronée de multiples variables latentes et la façon dont elle permet d’intégrer plusieurs restrictions de vérification. Une étude par simulations montre que la méthode d’IMCL peut habituellement reproduire des fréquences par cellule dans des tableaux à basse et à haute dimensionnalité, comportant de faibles quantités de biais. Il est en outre possible d’estimer adéquatement la variance, même si elle est surestimée lorsque les fréquences par cellule sont moindres.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X201900300003
    Description :

    Les formules largement utilisées pour la variance de l’estimateur par le ratio peuvent mener à une sérieuse sous-estimation quand l’échantillon est de petite taille; voir Sukhatme (1954), Koop (1968), Rao (1969) et Cochran (1977, pages 163 et 164). Nous proposons ici comme solution à ce problème classique de nouveaux estimateurs de la variance et de l’erreur quadratique moyenne de l’estimateur par le ratio qui ne sont pas entachés d’un important biais négatif. Des formules d’estimation semblables peuvent s’obtenir pour d’autres estimateurs par le ratio, comme il en est question dans Tin (1965). Nous comparons trois estimateurs de l’erreur quadratique moyenne de l’estimateur par le ratio dans une étude par simulation.

    Date de diffusion : 2019-12-17

  • Articles et rapports : 12-001-X201600114538
    Description :

    La vérification automatique consiste en l’utilisation d’un ordinateur pour déceler et corriger sans intervention humaine les valeurs erronées dans un ensemble de données. La plupart des méthodes de vérification automatique actuellement employées aux fins de la statistique officielle sont fondées sur les travaux fondamentaux de Fellegi et Holt (1976). La mise en application de cette méthode dans la pratique révèle des différences systématiques entre les données vérifiées manuellement et celles qui sont vérifiées de façon automatisée, car l’humain est en mesure d’effectuer des opérations de vérification complexes. L’auteur du présent article propose une généralisation du paradigme de Fellegi-Holt qui permet d’intégrer de façon naturelle une grande catégorie d’opérations de vérification. Il présente aussi un algorithme qui résout le problème généralisé de localisation des erreurs qui en découle. Il est à espérer que cette généralisation puisse améliorer la pertinence des vérifications automatiques dans la pratique et ainsi accroître l’efficience des processus de vérification des données. Certains des premiers résultats obtenus à l’aide de données synthétiques sont prometteurs à cet égard.

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201300111825
    Description :

    Une limite importante des méthodes actuelles de vérification automatique des données tient au fait que toutes les vérifications sont traitées comme des contraintes fermes. Autrement dit, un rejet à la vérification suppose systématiquement une erreur dans les données. Par contre, dans le cas de la vérification manuelle, les spécialistes du domaine recourent aussi à de très nombreuses vérifications avec avertissement, c'est-à-dire des contraintes destinées à repérer les valeurs et combinaisons de valeurs qui sont suspectes mais pas forcément incorrectes. L'incapacité des méthodes de vérification automatique à traiter les vérifications avec avertissement explique partiellement pourquoi, en pratique, de nombreuses différences sont constatées entre les données vérifiées manuellement et celles vérifiées automatiquement. L'objet du présent article est de présenter une nouvelle formulation du problème de localisation des erreurs qui permet de faire la distinction entre les vérifications avec rejet (hard edits) et les vérifications avec avertissement (soft edits). En outre, il montre comment ce problème peut être résolu grâce à une extension de l'algorithme de localisation des erreurs de De Waal et Quere (2003).

    Date de diffusion : 2013-06-28

  • Articles et rapports : 12-001-X198100154934
    Description :

    Dans les enquêtes, il arrive qu’une réponse soit incomplète ou que certains éléments soient incompatibles ou encore, que des éléments puissent manquer, comme dans le cas de l’échantillonnage à deux phases. Il peut alors être utile d’imputer des valeurs aux éléments manquants. Même si cette méthode n’offre pas une solution particulièrement bonne à un problème d’estimation donné, elle permet cependant la production d’estimations arbitraires d’une façon cohérente.

    Le statisticien enquêteur sera peut-être aux prises avec un mélange d’éléments numériques et qualitatifes qui seront assujettis à une variété de contraintes. Il doit évaluer sa technique, en particulier en ce qui concerne le biais, et veiller à ce que les éléments imputés soient nettement identifiés et que des rapports sommaires soient produits.

    L’auteur décrit diverses techniques d’imputation utilisées à l’heure actuelle et elle accorde une attention particulière aux problèmes pratiques en cause.

    Date de diffusion : 1981-06-15
Revues et périodiques (0)

Revues et périodiques (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :