Aide à l'ordre
entrées

Résultats

Tout (19)

Tout (19) (0 à 10 de 19 résultats)

  • Articles et rapports : 12-001-X202300200009
    Description : Dans le présent article, nous examinons la façon dont une grande base de données non probabiliste peut servir à améliorer des estimations de totaux de population finie d’un petit échantillon probabiliste grâce aux techniques d’intégration de données. Dans le cas où la variable d’intérêt est observée dans les deux sources de données, Kim et Tam (2021) ont proposé deux estimateurs convergents par rapport au plan de sondage qui peuvent être justifiés par la théorie des enquêtes à double base de sondage. D’abord, nous posons des conditions garantissant que les estimateurs en question seront plus efficaces que l’estimateur de Horvitz-Thompson lorsque l’échantillon probabiliste est sélectionné par échantillonnage de Poisson ou par échantillonnage aléatoire simple sans remise. Ensuite, nous étudions la famille des prédicteurs QR proposée par Särndal et Wright (1984) pour le cas moins courant où la base de données non probabiliste ne contient pas la variable d’intérêt, mais des variables auxiliaires. Une autre exigence est que la base non probabiliste soit vaste et puisse être couplée avec l’échantillon probabiliste. Les conditions que nous posons font que le prédicteur QR est asymptotiquement sans biais par rapport au plan de sondage. Nous calculons sa variance asymptotique sous le plan de sondage et présentons un estimateur de variance convergent par rapport au plan de sondage. Nous comparons les propriétés par rapport au plan de sondage de différents prédicteurs de la famille des prédicteurs QR dans une étude par simulation. La famille comprend un prédicteur fondé sur un modèle, un estimateur assisté par un modèle et un estimateur cosmétique. Dans nos scénarios de simulation, l’estimateur cosmétique a donné des résultats légèrement supérieurs à ceux de l’estimateur assisté par un modèle. Nos constatations sont confirmées par une application aux données de La Poste, laquelle illustre par ailleurs que les propriétés de l’estimateur cosmétique sont conservées indépendamment de l’échantillon non probabiliste observé.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202200100006
    Description :

    Au cours des deux dernières décennies, les taux de réponse aux enquêtes ont régulièrement diminué. Dans ce contexte, il est devenu de plus en plus important pour les organismes statistiques d’élaborer et d’utiliser des méthodes permettant de réduire les effets négatifs de la non-réponse sur l’exactitude des estimations découlant d’enquêtes. Le suivi des cas de non-réponse peut être un remède efficace, même s’il exige du temps et des ressources, pour pallier le biais de non-réponse. Nous avons mené une étude par simulations à l’aide de données réelles d’enquêtes-entreprises, afin de tenter de répondre à plusieurs questions relatives au suivi de la non-réponse. Par exemple, en supposant un budget fixe de suivi de la non-réponse, quelle est la meilleure façon de sélectionner les unités non répondantes auprès desquelles effectuer un suivi ? Quel effort devons-nous consacrer à un suivi répété des non-répondants jusqu’à la réception d’une réponse ? Les non-répondants devraient-ils tous faire l’objet d’un suivi ou seulement un échantillon d’entre eux ? Dans le cas d’un suivi d’un échantillon seulement, comment sélectionner ce dernier ? Nous avons comparé les biais relatifs Monte Carlo et les racines de l’erreur quadratique moyenne relative Monte Carlo pour différents plans de sondage du suivi, tailles d’échantillon et scénarios de non-réponse. Nous avons également déterminé une expression de la taille de l’échantillon de suivi minimale nécessaire pour dépenser le budget, en moyenne, et montré que cela maximise le taux de réponse espéré. Une principale conclusion de notre expérience de simulation est que cette taille d’échantillon semble également réduire approximativement le biais et l’erreur quadratique moyenne des estimations.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X202100200001
    Description :

    Le modèle de Fay-Herriot est souvent utilisé pour obtenir des estimations sur petits domaines. Ces estimations sont généralement plus efficaces que les estimations directes classiques. Afin d’évaluer les gains d’efficacité obtenus par les méthodes d’estimation sur petits domaines, on produit généralement des estimations de l’erreur quadratique moyenne fondée sur le modèle. Cependant, ces estimations ne permettent pas de tenir compte de toute la spécificité d’un domaine en particulier car elles font disparaître l’effet local en prenant une espérance par rapport au modèle. Une alternative consiste à estimer l’erreur quadratique moyenne fondée sur le plan de sondage des estimateurs sur petits domaines. Cette dernière est souvent plus attrayante du point de vue des utilisateurs. Il est cependant connu que les estimateurs de l’erreur quadratique moyenne fondée sur le plan de sondage peuvent être très instables, particulièrement pour les domaines qui contiennent peu d’unités échantillonnées. Dans cet article, nous proposons deux diagnostics locaux qui ont pour objectif de faire un choix entre le meilleur prédicteur empirique et l’estimateur direct pour un domaine en particulier. Nous trouvons d’abord un intervalle de valeurs de l’effet local tel que le meilleur prédicteur est plus efficace sous le plan que l’estimateur direct. Ensuite, nous considérons deux approches différentes pour évaluer s’il est plausible que l’effet local se trouve dans cet intervalle. Nous examinons nos diagnostics au moyen d’une étude par simulation. Nos résultats préliminaires semblent prometteurs quant à l’utilité de ces diagnostics pour choisir entre le meilleur prédicteur empirique et l’estimateur direct.

    Date de diffusion : 2022-01-06

  • Articles et rapports : 11-633-X2021007
    Description :

    Statistique Canada continue d’utiliser diverses sources de données pour fournir des variables au niveau des quartiers dans un ensemble croissant de domaines, comme les caractéristiques sociodémographiques, le revenu, les services et les commodités, la criminalité et l’environnement. Pourtant, malgré ces progrès, les renseignements sur les aspects sociaux des quartiers ne sont toujours pas disponibles. Dans le présent article, les réponses à l’Enquête sur la santé dans les collectivités canadiennes concernant le sentiment d’appartenance des répondants à leur communauté locale ont été regroupées pour les quatre années d’enquête allant de 2016 à 2019. Les réponses individuelles ont été agrégées au niveau du secteur de recensement (SR).

    Date de diffusion : 2021-11-16

  • Articles et rapports : 11-522-X202100100008
    Description :

    Les organismes nationaux de statistique étudient de plus en plus la possibilité d'utiliser des échantillons non probabilistes en complément des échantillons probabilistes. Nous examinons le scénario où la variable d’intérêt et les variables auxiliaires sont observées à la fois dans un échantillon probabiliste et un échantillon non probabiliste. Nous cherchons à utiliser les données de l’échantillon non probabiliste pour améliorer l’efficacité des estimations pondérées par les poids d’enquête obtenues à partir de l’échantillon probabiliste. Récemment, Sakshaug, Wisniowski, Ruiz et Blom (2019) et Wisniowski, Sakshaug, Ruiz et Blom (2020) ont proposé une approche bayésienne visant à intégrer les données des deux échantillons aux fins de l’estimation des paramètres du modèle. Dans leur méthode, on utilise les données de l’échantillon non probabiliste pour déterminer la distribution a priori des paramètres du modèle et on obtient la distribution a posteriori en supposant que le plan de sondage probabiliste est ignorable (ou non informatif). Nous étendons cette approche bayésienne à la prédiction de paramètres d’une population finie dans le cadre d’un échantillonnage non ignorable (ou informatif) en nous appuyant sur des statistiques pondérées par des poids d’enquête appropriées. Nous illustrons les propriétés de notre prédicteur au moyen d’une étude par simulations.

    Mots clés : prédiction bayésienne; échantillonnage de Gibbs; échantillonnage non ignorable; intégration des données statistiques.

    Date de diffusion : 2021-10-29

  • Articles et rapports : 12-001-X202000100001
    Description :

    Depuis plusieurs décennies, les agences nationales de statistique dans le monde utilisent des enquêtes probabilistes comme outil privilégié pour répondre à des besoins d’informations au sujet d’une population d’intérêt. Au cours des dernières années, on a observé un vent de changement et on considère de plus en plus d’autres sources de données. Cette tendance peut être expliquée par cinq facteurs principaux : le déclin des taux de réponse dans les enquêtes probabilistes, les coûts de collecte élevés, l’accroissement du fardeau sur les répondants, le désir d’avoir accès à des statistiques en « temps réel » et la prolifération des sources de données non probabilistes. Certaines personnes en sont même venues à croire que les enquêtes probabilistes pourraient graduellement disparaître. Dans cet article, nous passons en revue quelques approches qui permettent de réduire, voire éliminer, l’utilisation d’enquêtes probabilistes tout en conservant un cadre d’inférence statistique valide. Toutes les approches que nous considérons utilisent des données d’une source non probabiliste accompagnées, dans la plupart des cas, de données d’une enquête probabiliste. Certaines d’entre elles reposent sur la validité d’hypothèses de modèle ce qui contraste avec les approches fondées sur le plan de sondage probabiliste. Ces dernières sont généralement moins efficaces mais, en contrepartie, elles ne sont pas affectées par le risque de biais découlant d’une mauvaise spécification d’un modèle.

    Date de diffusion : 2020-06-30

  • Articles et rapports : 12-001-X201900100009
    Description :

    La demande d’estimations sur petits domaines de la part des utilisateurs des données de Statistique Canada augmente constamment depuis quelques années. Dans le présent document, nous résumons les procédures qui ont été intégrées dans un système de production en SAS permettant d’obtenir des estimations sur petits domaines officielles à Statistique Canada. Ce système comprend : des procédures fondées sur des modèles au niveau de l’unité ou du domaine; l’intégration du plan d’échantillonnage; la capacité de lisser la variance sous le plan pour chaque petit domaine si un modèle au niveau du domaine est utilisé; la capacité de vérifier que les estimations sur petits domaines équivalent à des estimations fiables de niveau plus élevé; et l’élaboration d’outils de diagnostic pour tester la pertinence du modèle. Le système de production a servi à produire des estimations sur petits domaines à titre expérimental pour plusieurs enquêtes de Statistique Canada, notamment : l’estimation des caractéristiques de la santé, l’estimation du sous-dénombrement au recensement, l’estimation des ventes des fabricants et l’estimation des taux de chômage et des chiffres d’emploi pour l’Enquête sur la population active. Certains des diagnostics instaurés dans le système sont illustrés à l’aide des données de l’Enquête sur la population active ainsi que des données administratives auxiliaires.

    Date de diffusion : 2019-05-07

  • Articles et rapports : 12-001-X201600214662
    Description :

    Les plans d’échantillonnage à deux phases sont souvent utilisés dans les enquêtes lorsque la base de sondage ne contient que peu d’information auxiliaire, voire aucune. Dans la présente note, nous apportons certains éclaircissements sur le concept d’invariance souvent mentionné dans le contexte des plans d’échantillonnage à deux phases. Nous définissons deux types de plans d’échantillonnage à deux phases invariants, à savoir les plans fortement invariants et les plans faiblement invariants, et donnons des exemples. Enfin, nous décrivons les implications d’une forte ou d’une faible invariance du point de vue de l’inférence.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201500114199
    Description :

    Dans les enquêtes auprès des entreprises, il est courant de collecter des variables économiques dont la distribution est fortement asymétrique. Dans ce contexte, la winsorisation est fréquemment utilisée afin de traiter le problème des valeurs influentes. Cette technique requiert la détermination d’une constante qui correspond au seuil à partir duquel les grandes valeurs sont réduites. Dans cet article, nous considérons une méthode de détermination de la constante qui consiste à minimiser le plus grand biais conditionnel estimé de l’échantillon. Dans le contexte de l’estimation pour des domaines, nous proposons également une méthode permettant d’assurer la cohérence entre les estimations winsorisées calculées au niveau des domaines et l’estimation winsorisée calculée au niveau de la population. Les résultats de deux études par simulation suggèrent que les méthodes proposées conduisent à des estimateurs winsorisés ayant de bonnes propriétés en termes de biais et d’efficacité relative.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201100211605
    Description :

    L'imputation composite est fréquemment employée dans les enquêtes auprès des entreprises. Le terme « composite » signifie que l'on utilise plus d'une méthode d'imputation pour remplacer les valeurs manquantes d'une variable d'intérêt. La littérature consacrée à l'estimation de la variance sous imputation composite est peu abondante. Afin de surmonter ce problème, nous examinons une extension de la méthodologie élaborée par Särndal (1992). Cette extension est de nature assez générale et est facile à mettre en oeuvre, à condition d'utiliser des méthodes d'imputation linéaires pour remplacer les valeurs manquantes. Cette catégorie de méthodes comprend l'imputation par régression linéaire, l'imputation par donneur et l'imputation par valeur auxiliaire, parfois appelée imputation « cold deck » ou imputation par substitution. Elle englobe donc les méthodes les plus couramment utilisées par les organismes statistiques nationaux pour imputer les valeurs manquantes. Notre méthodologie a été intégrée au Système d'estimation de la variance due à la non-réponse et à l'imputation (SEVANI), mis au point à Statistique Canada. Une étude par simulation est effectuée pour en évaluer les propriétés.

    Date de diffusion : 2011-12-21
Stats en bref (0)

Stats en bref (0) (0 résultat)

Aucun contenu disponible actuellement

Articles et rapports (19)

Articles et rapports (19) (0 à 10 de 19 résultats)

  • Articles et rapports : 12-001-X202300200009
    Description : Dans le présent article, nous examinons la façon dont une grande base de données non probabiliste peut servir à améliorer des estimations de totaux de population finie d’un petit échantillon probabiliste grâce aux techniques d’intégration de données. Dans le cas où la variable d’intérêt est observée dans les deux sources de données, Kim et Tam (2021) ont proposé deux estimateurs convergents par rapport au plan de sondage qui peuvent être justifiés par la théorie des enquêtes à double base de sondage. D’abord, nous posons des conditions garantissant que les estimateurs en question seront plus efficaces que l’estimateur de Horvitz-Thompson lorsque l’échantillon probabiliste est sélectionné par échantillonnage de Poisson ou par échantillonnage aléatoire simple sans remise. Ensuite, nous étudions la famille des prédicteurs QR proposée par Särndal et Wright (1984) pour le cas moins courant où la base de données non probabiliste ne contient pas la variable d’intérêt, mais des variables auxiliaires. Une autre exigence est que la base non probabiliste soit vaste et puisse être couplée avec l’échantillon probabiliste. Les conditions que nous posons font que le prédicteur QR est asymptotiquement sans biais par rapport au plan de sondage. Nous calculons sa variance asymptotique sous le plan de sondage et présentons un estimateur de variance convergent par rapport au plan de sondage. Nous comparons les propriétés par rapport au plan de sondage de différents prédicteurs de la famille des prédicteurs QR dans une étude par simulation. La famille comprend un prédicteur fondé sur un modèle, un estimateur assisté par un modèle et un estimateur cosmétique. Dans nos scénarios de simulation, l’estimateur cosmétique a donné des résultats légèrement supérieurs à ceux de l’estimateur assisté par un modèle. Nos constatations sont confirmées par une application aux données de La Poste, laquelle illustre par ailleurs que les propriétés de l’estimateur cosmétique sont conservées indépendamment de l’échantillon non probabiliste observé.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202200100006
    Description :

    Au cours des deux dernières décennies, les taux de réponse aux enquêtes ont régulièrement diminué. Dans ce contexte, il est devenu de plus en plus important pour les organismes statistiques d’élaborer et d’utiliser des méthodes permettant de réduire les effets négatifs de la non-réponse sur l’exactitude des estimations découlant d’enquêtes. Le suivi des cas de non-réponse peut être un remède efficace, même s’il exige du temps et des ressources, pour pallier le biais de non-réponse. Nous avons mené une étude par simulations à l’aide de données réelles d’enquêtes-entreprises, afin de tenter de répondre à plusieurs questions relatives au suivi de la non-réponse. Par exemple, en supposant un budget fixe de suivi de la non-réponse, quelle est la meilleure façon de sélectionner les unités non répondantes auprès desquelles effectuer un suivi ? Quel effort devons-nous consacrer à un suivi répété des non-répondants jusqu’à la réception d’une réponse ? Les non-répondants devraient-ils tous faire l’objet d’un suivi ou seulement un échantillon d’entre eux ? Dans le cas d’un suivi d’un échantillon seulement, comment sélectionner ce dernier ? Nous avons comparé les biais relatifs Monte Carlo et les racines de l’erreur quadratique moyenne relative Monte Carlo pour différents plans de sondage du suivi, tailles d’échantillon et scénarios de non-réponse. Nous avons également déterminé une expression de la taille de l’échantillon de suivi minimale nécessaire pour dépenser le budget, en moyenne, et montré que cela maximise le taux de réponse espéré. Une principale conclusion de notre expérience de simulation est que cette taille d’échantillon semble également réduire approximativement le biais et l’erreur quadratique moyenne des estimations.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 12-001-X202100200001
    Description :

    Le modèle de Fay-Herriot est souvent utilisé pour obtenir des estimations sur petits domaines. Ces estimations sont généralement plus efficaces que les estimations directes classiques. Afin d’évaluer les gains d’efficacité obtenus par les méthodes d’estimation sur petits domaines, on produit généralement des estimations de l’erreur quadratique moyenne fondée sur le modèle. Cependant, ces estimations ne permettent pas de tenir compte de toute la spécificité d’un domaine en particulier car elles font disparaître l’effet local en prenant une espérance par rapport au modèle. Une alternative consiste à estimer l’erreur quadratique moyenne fondée sur le plan de sondage des estimateurs sur petits domaines. Cette dernière est souvent plus attrayante du point de vue des utilisateurs. Il est cependant connu que les estimateurs de l’erreur quadratique moyenne fondée sur le plan de sondage peuvent être très instables, particulièrement pour les domaines qui contiennent peu d’unités échantillonnées. Dans cet article, nous proposons deux diagnostics locaux qui ont pour objectif de faire un choix entre le meilleur prédicteur empirique et l’estimateur direct pour un domaine en particulier. Nous trouvons d’abord un intervalle de valeurs de l’effet local tel que le meilleur prédicteur est plus efficace sous le plan que l’estimateur direct. Ensuite, nous considérons deux approches différentes pour évaluer s’il est plausible que l’effet local se trouve dans cet intervalle. Nous examinons nos diagnostics au moyen d’une étude par simulation. Nos résultats préliminaires semblent prometteurs quant à l’utilité de ces diagnostics pour choisir entre le meilleur prédicteur empirique et l’estimateur direct.

    Date de diffusion : 2022-01-06

  • Articles et rapports : 11-633-X2021007
    Description :

    Statistique Canada continue d’utiliser diverses sources de données pour fournir des variables au niveau des quartiers dans un ensemble croissant de domaines, comme les caractéristiques sociodémographiques, le revenu, les services et les commodités, la criminalité et l’environnement. Pourtant, malgré ces progrès, les renseignements sur les aspects sociaux des quartiers ne sont toujours pas disponibles. Dans le présent article, les réponses à l’Enquête sur la santé dans les collectivités canadiennes concernant le sentiment d’appartenance des répondants à leur communauté locale ont été regroupées pour les quatre années d’enquête allant de 2016 à 2019. Les réponses individuelles ont été agrégées au niveau du secteur de recensement (SR).

    Date de diffusion : 2021-11-16

  • Articles et rapports : 11-522-X202100100008
    Description :

    Les organismes nationaux de statistique étudient de plus en plus la possibilité d'utiliser des échantillons non probabilistes en complément des échantillons probabilistes. Nous examinons le scénario où la variable d’intérêt et les variables auxiliaires sont observées à la fois dans un échantillon probabiliste et un échantillon non probabiliste. Nous cherchons à utiliser les données de l’échantillon non probabiliste pour améliorer l’efficacité des estimations pondérées par les poids d’enquête obtenues à partir de l’échantillon probabiliste. Récemment, Sakshaug, Wisniowski, Ruiz et Blom (2019) et Wisniowski, Sakshaug, Ruiz et Blom (2020) ont proposé une approche bayésienne visant à intégrer les données des deux échantillons aux fins de l’estimation des paramètres du modèle. Dans leur méthode, on utilise les données de l’échantillon non probabiliste pour déterminer la distribution a priori des paramètres du modèle et on obtient la distribution a posteriori en supposant que le plan de sondage probabiliste est ignorable (ou non informatif). Nous étendons cette approche bayésienne à la prédiction de paramètres d’une population finie dans le cadre d’un échantillonnage non ignorable (ou informatif) en nous appuyant sur des statistiques pondérées par des poids d’enquête appropriées. Nous illustrons les propriétés de notre prédicteur au moyen d’une étude par simulations.

    Mots clés : prédiction bayésienne; échantillonnage de Gibbs; échantillonnage non ignorable; intégration des données statistiques.

    Date de diffusion : 2021-10-29

  • Articles et rapports : 12-001-X202000100001
    Description :

    Depuis plusieurs décennies, les agences nationales de statistique dans le monde utilisent des enquêtes probabilistes comme outil privilégié pour répondre à des besoins d’informations au sujet d’une population d’intérêt. Au cours des dernières années, on a observé un vent de changement et on considère de plus en plus d’autres sources de données. Cette tendance peut être expliquée par cinq facteurs principaux : le déclin des taux de réponse dans les enquêtes probabilistes, les coûts de collecte élevés, l’accroissement du fardeau sur les répondants, le désir d’avoir accès à des statistiques en « temps réel » et la prolifération des sources de données non probabilistes. Certaines personnes en sont même venues à croire que les enquêtes probabilistes pourraient graduellement disparaître. Dans cet article, nous passons en revue quelques approches qui permettent de réduire, voire éliminer, l’utilisation d’enquêtes probabilistes tout en conservant un cadre d’inférence statistique valide. Toutes les approches que nous considérons utilisent des données d’une source non probabiliste accompagnées, dans la plupart des cas, de données d’une enquête probabiliste. Certaines d’entre elles reposent sur la validité d’hypothèses de modèle ce qui contraste avec les approches fondées sur le plan de sondage probabiliste. Ces dernières sont généralement moins efficaces mais, en contrepartie, elles ne sont pas affectées par le risque de biais découlant d’une mauvaise spécification d’un modèle.

    Date de diffusion : 2020-06-30

  • Articles et rapports : 12-001-X201900100009
    Description :

    La demande d’estimations sur petits domaines de la part des utilisateurs des données de Statistique Canada augmente constamment depuis quelques années. Dans le présent document, nous résumons les procédures qui ont été intégrées dans un système de production en SAS permettant d’obtenir des estimations sur petits domaines officielles à Statistique Canada. Ce système comprend : des procédures fondées sur des modèles au niveau de l’unité ou du domaine; l’intégration du plan d’échantillonnage; la capacité de lisser la variance sous le plan pour chaque petit domaine si un modèle au niveau du domaine est utilisé; la capacité de vérifier que les estimations sur petits domaines équivalent à des estimations fiables de niveau plus élevé; et l’élaboration d’outils de diagnostic pour tester la pertinence du modèle. Le système de production a servi à produire des estimations sur petits domaines à titre expérimental pour plusieurs enquêtes de Statistique Canada, notamment : l’estimation des caractéristiques de la santé, l’estimation du sous-dénombrement au recensement, l’estimation des ventes des fabricants et l’estimation des taux de chômage et des chiffres d’emploi pour l’Enquête sur la population active. Certains des diagnostics instaurés dans le système sont illustrés à l’aide des données de l’Enquête sur la population active ainsi que des données administratives auxiliaires.

    Date de diffusion : 2019-05-07

  • Articles et rapports : 12-001-X201600214662
    Description :

    Les plans d’échantillonnage à deux phases sont souvent utilisés dans les enquêtes lorsque la base de sondage ne contient que peu d’information auxiliaire, voire aucune. Dans la présente note, nous apportons certains éclaircissements sur le concept d’invariance souvent mentionné dans le contexte des plans d’échantillonnage à deux phases. Nous définissons deux types de plans d’échantillonnage à deux phases invariants, à savoir les plans fortement invariants et les plans faiblement invariants, et donnons des exemples. Enfin, nous décrivons les implications d’une forte ou d’une faible invariance du point de vue de l’inférence.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201500114199
    Description :

    Dans les enquêtes auprès des entreprises, il est courant de collecter des variables économiques dont la distribution est fortement asymétrique. Dans ce contexte, la winsorisation est fréquemment utilisée afin de traiter le problème des valeurs influentes. Cette technique requiert la détermination d’une constante qui correspond au seuil à partir duquel les grandes valeurs sont réduites. Dans cet article, nous considérons une méthode de détermination de la constante qui consiste à minimiser le plus grand biais conditionnel estimé de l’échantillon. Dans le contexte de l’estimation pour des domaines, nous proposons également une méthode permettant d’assurer la cohérence entre les estimations winsorisées calculées au niveau des domaines et l’estimation winsorisée calculée au niveau de la population. Les résultats de deux études par simulation suggèrent que les méthodes proposées conduisent à des estimateurs winsorisés ayant de bonnes propriétés en termes de biais et d’efficacité relative.

    Date de diffusion : 2015-06-29

  • Articles et rapports : 12-001-X201100211605
    Description :

    L'imputation composite est fréquemment employée dans les enquêtes auprès des entreprises. Le terme « composite » signifie que l'on utilise plus d'une méthode d'imputation pour remplacer les valeurs manquantes d'une variable d'intérêt. La littérature consacrée à l'estimation de la variance sous imputation composite est peu abondante. Afin de surmonter ce problème, nous examinons une extension de la méthodologie élaborée par Särndal (1992). Cette extension est de nature assez générale et est facile à mettre en oeuvre, à condition d'utiliser des méthodes d'imputation linéaires pour remplacer les valeurs manquantes. Cette catégorie de méthodes comprend l'imputation par régression linéaire, l'imputation par donneur et l'imputation par valeur auxiliaire, parfois appelée imputation « cold deck » ou imputation par substitution. Elle englobe donc les méthodes les plus couramment utilisées par les organismes statistiques nationaux pour imputer les valeurs manquantes. Notre méthodologie a été intégrée au Système d'estimation de la variance due à la non-réponse et à l'imputation (SEVANI), mis au point à Statistique Canada. Une étude par simulation est effectuée pour en évaluer les propriétés.

    Date de diffusion : 2011-12-21
Revues et périodiques (0)

Revues et périodiques (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :