Aide à l'ordre

Résultats

Tout (260)

Tout (260) (0 à 10 de 260 résultats)

  • Articles et rapports : 12-001-X201800154925
    Description :

    Le présent article traite de l’inférence statistique sous un modèle de superpopulation en population finie quand on utilise des échantillons obtenus par échantillonnage d’ensembles ordonnés (EEO). Les échantillons sont construits sans remise. Nous montrons que la moyenne d’échantillon sous EEO est sans biais par rapport au modèle et présente une plus petite erreur de prédiction quadratique moyenne (EPQM) que la moyenne sous échantillonnage aléatoire simple (EAS). Partant d’un estimateur sans biais de l’EPQM, nous construisons aussi un intervalle de confiance de prédiction pour la moyenne de population. Une étude en simulation à petite échelle montre que cet estimateur est aussi bon qu’un estimateur sur échantillon aléatoire simple (EAS) quand l’information pour le classement est de qualité médiocre. Par ailleurs, cet estimateur est plus efficace que l’estimateur EAS quand la qualité de l’information de classement est bonne et que le ratio des coûts de l’obtention d’une unité sous EEO et sous EAS n’est pas très élevé. L’étude en simulation indique aussi que les probabilités de couverture des intervalles de prédiction sont très proches des probabilités de couverture nominales. La procédure d’inférence proposée est appliquée à un ensemble de données réel.

    Date de diffusion : 2018-06-21

  • Articles et rapports : 12-001-X201800154929
    Description :

    Le U.S. Census Bureau étudie des stratégies de sous-échantillonnage des non-répondants en prévision de l’Economic Census de 2017. Les contraintes imposées au plan de sondage comprennent une borne inférieure obligatoire pour le taux de réponse totale, ainsi que des taux de réponse cibles par industrie. Le présent article expose la recherche sur les procédures de répartition de l’échantillon pour le sous-échantillonnage des non-répondants conditionnellement à ce que ce sous-échantillonnage soit systématique. Nous considérons deux approches, à savoir 1) l’échantillonnage avec probabilités égales et 2) la répartition optimisée avec contraintes sur les taux de réponse totale et la taille d’échantillon, avec pour objectif la sélection de plus grands échantillons dans les industries qui, au départ, affichent des taux de réponse plus faibles. Nous présentons une étude en simulation qui examine le biais relatif et l’erreur quadratique moyenne pour les répartitions proposées, en évaluant la sensibilité de chaque procédure à la taille du sous-échantillon, aux propensions à répondre et à la procédure d’estimation

    Date de diffusion : 2018-06-21

  • Revues et périodiques : 75F0002M
    Géographie : Canada
    Description :

    Cette série comprend de la documentation détaillée sur revenu, notamment les problèmes de conception, l'évaluation qualitative des données et les recherches préliminaires.

    Date de diffusion : 2018-04-05

  • Articles et rapports : 12-001-X201700114817
    Description :

    Nous présentons les résultats de notre recherche sur les modes de répartition d’échantillons qui permettent de faire une estimation efficace sur petits domaines par modélisation dans les cas où les domaines d’intérêt coïncident avec les strates. Les méthodes d’estimation assistées d’un modèle et celles fondées sur un modèle sont répandues dans la production de statistiques relatives aux petits domaines, mais l’utilisation du modèle et de la méthode d’estimation sous-jacents est rarement intégrée au plan de répartition de l’échantillon entre les domaines. C’est pourquoi nous avons conçu un nouveau mode de répartition fondée sur un modèle que nous avons appelé répartition g1. Aux fins de comparaison, nous décrivons un autre mode de répartition fondée sur un modèle qui a récemment vu le jour. Ces deux répartitions sont fondées sur une mesure ajustée de l’homogénéité qui se calcule à l’aide d’une variable auxiliaire et constitue une approximation de la corrélation intraclasse à l’intérieur des domaines. Nous avons choisi cinq solutions de répartition par domaine sans modèle, adoptées par le passé dans le cadre d’études spécialisées, comme méthodes de référence. Pour une répartition égale ou proportionnelle, il nous faut connaître le nombre de domaines ainsi que le nombre d’unités statistiques de base dans chacun d’eux. Les répartitions de Neyman et de Bankier et la répartition par programmation non linéaire (PNL), nécessitent des paramètres au niveau du domaine comme l’écart-type, le coefficient de variation ou les totaux. En règle générale, on peut caractériser les méthodes de répartition en fonction des critères d’optimisation et de l’utilisation de données auxiliaires. On évalue alors les propriétés statistiques des diverses méthodes retenues au moyen d’expériences de simulation d’échantillon faisant appel aux données réelles du registre de population. Selon les résultats de simulation, on peut conclure que l’intégration du modèle et de la méthode d’estimation à la méthode de répartition a pour effet d’améliorer les résultats de l’estimation.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201600214660
    Description :

    Dans le cadre d’une enquête économique auprès d’un échantillon d’entreprises, on sélectionne au hasard des professions dans une liste jusqu’à ce que l’on identifie un nombre r de professions présentes dans une unité locale. Il s’agit d’un problème d’échantillonnage inverse pour lequel nous proposons quelques solutions. Les plans simples avec et sans remise se traitent au moyen des distributions binomiale négative et hypergéométrique négative. On propose également des estimateurs pour le cas où les unités sont sélectionnées à probabilités inégales avec ou sans remise.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214662
    Description :

    Les plans d’échantillonnage à deux phases sont souvent utilisés dans les enquêtes lorsque la base de sondage ne contient que peu d’information auxiliaire, voire aucune. Dans la présente note, nous apportons certains éclaircissements sur le concept d’invariance souvent mentionné dans le contexte des plans d’échantillonnage à deux phases. Nous définissons deux types de plans d’échantillonnage à deux phases invariants, à savoir les plans fortement invariants et les plans faiblement invariants, et donnons des exemples. Enfin, nous décrivons les implications d’une forte ou d’une faible invariance du point de vue de l’inférence.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214684
    Description :

    Cet article présente un plan d’échantillonnage en grappes adaptatif incomplet qui est facile à appliquer, permet de bien contrôler la taille de l’échantillon et n’oblige pas à suivre le voisinage. Dans un tel plan, on prélève un échantillon initial par un des plans classiques. Si une cellule répond à une condition préétablie, on procède à une sélection complète dans un rayon déterminé de cette cellule. On estime la moyenne de la population à l’aide de l’estimateur \pi. Si toutes les probabilités d’inclusion sont connues, on dispose d’un estimateur \pi sans biais, mais si selon le cas ces probabilités sont inconnues pour une partie des unités de l’échantillon final, elles feront l’objet d’une estimation. Pour estimer les probabilités d’inclusion, on construit un estimateur biaisé. Toutefois, les simulations démontrent que, si la taille d’échantillon est suffisante, l’erreur sera négligeable pour les probabilités d’inclusion et que l’estimateur \pi relatif sera presque exempt de biais. Ce plan rivalise avec l’échantillonnage en grappes adaptatif, parce qu’il permet de contrôler la taille de l’échantillon final et que sa gestion est facile. Il rivalise également avec l’échantillonnage séquentiel à deux degrés, parce qu’on tient compte de la forme en grappes de la population et qu’on diminue le coût de la couverture de toute l’aire d’échantillonnage. L’auteur se sert de données réelles d’une population d’oiseaux ainsi que de simulations pour comparer ce plan à un échantillonnage séquentiel adaptatif à deux degrés. Les simulations montrent que le plan est d’une grande efficacité en comparaison à son rival.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 18-001-X2016001
    Description :

    Bien que le couplage d’enregistrements des données d’entreprises ne soit pas un sujet complètement nouveau, il n’en demeure pas moins que le grand public et de nombreux utilisateurs de données en méconnaissent les programmes et méthodes générales mises en œuvre par les agences de la statistique à travers le monde.

    Ce rapport fait un rapide tour d’horizon des principaux programmes, pratiques d’usages et enjeux sur le couplage d’enregistrements des agences de la statistique à travers le monde ayant répondu à un mini-sondage sur ce sujet. Le document montre que les pratiques d’appariements sont similaires entre agences de la statistique, mais que les principales différences résident dans les processus d’accès aux données et dans les politiques règlementaires qui encadrent les autorisations de couplage d’enregistrements ainsi que leur diffusion.

    Date de diffusion : 2016-10-27

  • Articles et rapports : 89-648-X2016001
    Description :

    Les couplages entre les données des enquêtes et les données administratives sont une pratique de plus en plus répandue, d’une part parce qu’ils réduisent le fardeau de réponse des répondants, et d’autre part parce qu’ils permettent d’obtenir des données à un coût relativement faible. Le couplage rétrospectif, soit le couplage de données administratives des années antérieures avec celles de l’année de l’enquête, cumule ces avantages en offrant des années supplémentaires de données. Le présent document porte sur l’Étude longitudinale et internationale des adultes (ELIA), qui a été couplée avec les données fiscales rétrospectives sur les déclarations de revenus des particuliers (T1) et les données tirées des fichiers des entrepreneurs (T4), entre autres documents non cités ici. Il présente les tendances des taux de couplage rétrospectif, compare la cohérence des données administratives entre les fichiers T1 et T4, présente la possibilité d’utiliser les données pour créer des panels équilibrés et emploie les données des T1 pour produire des profils des gains en fonction de l’âge par sexe. Les résultats démontrent que le taux de couplage rétrospectif est supérieur (plus de 90 % dans la plupart des cas) et stable dans le temps chez les répondants susceptibles de produire une déclaration de revenus, et que les sources administratives des T1 et T4 montrent des revenus concordants. En outre, les données administratives de couplage de l’ELIA permettent de créer de longs panels équilibrés couvrant plus de 30 années (au moment de rédiger la présente étude).

    Date de diffusion : 2016-08-18

  • Articles et rapports : 11-522-X201700014745
    Description :

    Au moment de la conception des enquêtes, un certain nombre de paramètres, comme la propension à la prise de contact, la propension à la participation et les coûts par unité d’échantillonnage, jouent un rôle décisif. Dans le cas des enquêtes permanentes, ces paramètres de conception d’enquête sont habituellement estimés à partir de l’expérience antérieure et mis à jour graduellement, au fur et à mesure des nouvelles expériences. Dans les nouvelles enquêtes, ces paramètres sont estimés à partir de l’opinion des experts et de l’expérience acquise dans des enquêtes similaires. Même si les instituts de sondage ont une expertise et une expérience relativement bonnes, l’énoncé, l’estimation et la mise à jour des paramètres de conception d’enquête se font rarement de façon systématique. Dans la présentation, nous proposons un cadre bayésien qui permet de prendre en compte et de mettre à jour les connaissances acquises et les opinions des experts concernant les paramètres. Ce cadre est établi dans le contexte de plans de collecte adaptatifs, dans lesquels les différentes unités de population peuvent être traitées différemment compte tenu des objectifs de qualité et de coût. Pour ce type d’enquête, l’exactitude des paramètres de conception devient encore plus cruciale pour prendre des décisions efficaces. Le cadre permet une analyse bayésienne du rendement d’une enquête pendant la collecte des données et entre les vagues. Nous démontrons l’analyse bayésienne au moyen d’une étude de simulation réaliste.

    Date de diffusion : 2016-03-24
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (218)

Analyses (218) (0 à 10 de 218 résultats)

  • Articles et rapports : 12-001-X201800154925
    Description :

    Le présent article traite de l’inférence statistique sous un modèle de superpopulation en population finie quand on utilise des échantillons obtenus par échantillonnage d’ensembles ordonnés (EEO). Les échantillons sont construits sans remise. Nous montrons que la moyenne d’échantillon sous EEO est sans biais par rapport au modèle et présente une plus petite erreur de prédiction quadratique moyenne (EPQM) que la moyenne sous échantillonnage aléatoire simple (EAS). Partant d’un estimateur sans biais de l’EPQM, nous construisons aussi un intervalle de confiance de prédiction pour la moyenne de population. Une étude en simulation à petite échelle montre que cet estimateur est aussi bon qu’un estimateur sur échantillon aléatoire simple (EAS) quand l’information pour le classement est de qualité médiocre. Par ailleurs, cet estimateur est plus efficace que l’estimateur EAS quand la qualité de l’information de classement est bonne et que le ratio des coûts de l’obtention d’une unité sous EEO et sous EAS n’est pas très élevé. L’étude en simulation indique aussi que les probabilités de couverture des intervalles de prédiction sont très proches des probabilités de couverture nominales. La procédure d’inférence proposée est appliquée à un ensemble de données réel.

    Date de diffusion : 2018-06-21

  • Articles et rapports : 12-001-X201800154929
    Description :

    Le U.S. Census Bureau étudie des stratégies de sous-échantillonnage des non-répondants en prévision de l’Economic Census de 2017. Les contraintes imposées au plan de sondage comprennent une borne inférieure obligatoire pour le taux de réponse totale, ainsi que des taux de réponse cibles par industrie. Le présent article expose la recherche sur les procédures de répartition de l’échantillon pour le sous-échantillonnage des non-répondants conditionnellement à ce que ce sous-échantillonnage soit systématique. Nous considérons deux approches, à savoir 1) l’échantillonnage avec probabilités égales et 2) la répartition optimisée avec contraintes sur les taux de réponse totale et la taille d’échantillon, avec pour objectif la sélection de plus grands échantillons dans les industries qui, au départ, affichent des taux de réponse plus faibles. Nous présentons une étude en simulation qui examine le biais relatif et l’erreur quadratique moyenne pour les répartitions proposées, en évaluant la sensibilité de chaque procédure à la taille du sous-échantillon, aux propensions à répondre et à la procédure d’estimation

    Date de diffusion : 2018-06-21

  • Revues et périodiques : 75F0002M
    Géographie : Canada
    Description :

    Cette série comprend de la documentation détaillée sur revenu, notamment les problèmes de conception, l'évaluation qualitative des données et les recherches préliminaires.

    Date de diffusion : 2018-04-05

  • Articles et rapports : 12-001-X201700114817
    Description :

    Nous présentons les résultats de notre recherche sur les modes de répartition d’échantillons qui permettent de faire une estimation efficace sur petits domaines par modélisation dans les cas où les domaines d’intérêt coïncident avec les strates. Les méthodes d’estimation assistées d’un modèle et celles fondées sur un modèle sont répandues dans la production de statistiques relatives aux petits domaines, mais l’utilisation du modèle et de la méthode d’estimation sous-jacents est rarement intégrée au plan de répartition de l’échantillon entre les domaines. C’est pourquoi nous avons conçu un nouveau mode de répartition fondée sur un modèle que nous avons appelé répartition g1. Aux fins de comparaison, nous décrivons un autre mode de répartition fondée sur un modèle qui a récemment vu le jour. Ces deux répartitions sont fondées sur une mesure ajustée de l’homogénéité qui se calcule à l’aide d’une variable auxiliaire et constitue une approximation de la corrélation intraclasse à l’intérieur des domaines. Nous avons choisi cinq solutions de répartition par domaine sans modèle, adoptées par le passé dans le cadre d’études spécialisées, comme méthodes de référence. Pour une répartition égale ou proportionnelle, il nous faut connaître le nombre de domaines ainsi que le nombre d’unités statistiques de base dans chacun d’eux. Les répartitions de Neyman et de Bankier et la répartition par programmation non linéaire (PNL), nécessitent des paramètres au niveau du domaine comme l’écart-type, le coefficient de variation ou les totaux. En règle générale, on peut caractériser les méthodes de répartition en fonction des critères d’optimisation et de l’utilisation de données auxiliaires. On évalue alors les propriétés statistiques des diverses méthodes retenues au moyen d’expériences de simulation d’échantillon faisant appel aux données réelles du registre de population. Selon les résultats de simulation, on peut conclure que l’intégration du modèle et de la méthode d’estimation à la méthode de répartition a pour effet d’améliorer les résultats de l’estimation.

    Date de diffusion : 2017-06-22

  • Articles et rapports : 12-001-X201600214660
    Description :

    Dans le cadre d’une enquête économique auprès d’un échantillon d’entreprises, on sélectionne au hasard des professions dans une liste jusqu’à ce que l’on identifie un nombre r de professions présentes dans une unité locale. Il s’agit d’un problème d’échantillonnage inverse pour lequel nous proposons quelques solutions. Les plans simples avec et sans remise se traitent au moyen des distributions binomiale négative et hypergéométrique négative. On propose également des estimateurs pour le cas où les unités sont sélectionnées à probabilités inégales avec ou sans remise.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214662
    Description :

    Les plans d’échantillonnage à deux phases sont souvent utilisés dans les enquêtes lorsque la base de sondage ne contient que peu d’information auxiliaire, voire aucune. Dans la présente note, nous apportons certains éclaircissements sur le concept d’invariance souvent mentionné dans le contexte des plans d’échantillonnage à deux phases. Nous définissons deux types de plans d’échantillonnage à deux phases invariants, à savoir les plans fortement invariants et les plans faiblement invariants, et donnons des exemples. Enfin, nous décrivons les implications d’une forte ou d’une faible invariance du point de vue de l’inférence.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 12-001-X201600214684
    Description :

    Cet article présente un plan d’échantillonnage en grappes adaptatif incomplet qui est facile à appliquer, permet de bien contrôler la taille de l’échantillon et n’oblige pas à suivre le voisinage. Dans un tel plan, on prélève un échantillon initial par un des plans classiques. Si une cellule répond à une condition préétablie, on procède à une sélection complète dans un rayon déterminé de cette cellule. On estime la moyenne de la population à l’aide de l’estimateur \pi. Si toutes les probabilités d’inclusion sont connues, on dispose d’un estimateur \pi sans biais, mais si selon le cas ces probabilités sont inconnues pour une partie des unités de l’échantillon final, elles feront l’objet d’une estimation. Pour estimer les probabilités d’inclusion, on construit un estimateur biaisé. Toutefois, les simulations démontrent que, si la taille d’échantillon est suffisante, l’erreur sera négligeable pour les probabilités d’inclusion et que l’estimateur \pi relatif sera presque exempt de biais. Ce plan rivalise avec l’échantillonnage en grappes adaptatif, parce qu’il permet de contrôler la taille de l’échantillon final et que sa gestion est facile. Il rivalise également avec l’échantillonnage séquentiel à deux degrés, parce qu’on tient compte de la forme en grappes de la population et qu’on diminue le coût de la couverture de toute l’aire d’échantillonnage. L’auteur se sert de données réelles d’une population d’oiseaux ainsi que de simulations pour comparer ce plan à un échantillonnage séquentiel adaptatif à deux degrés. Les simulations montrent que le plan est d’une grande efficacité en comparaison à son rival.

    Date de diffusion : 2016-12-20

  • Articles et rapports : 18-001-X2016001
    Description :

    Bien que le couplage d’enregistrements des données d’entreprises ne soit pas un sujet complètement nouveau, il n’en demeure pas moins que le grand public et de nombreux utilisateurs de données en méconnaissent les programmes et méthodes générales mises en œuvre par les agences de la statistique à travers le monde.

    Ce rapport fait un rapide tour d’horizon des principaux programmes, pratiques d’usages et enjeux sur le couplage d’enregistrements des agences de la statistique à travers le monde ayant répondu à un mini-sondage sur ce sujet. Le document montre que les pratiques d’appariements sont similaires entre agences de la statistique, mais que les principales différences résident dans les processus d’accès aux données et dans les politiques règlementaires qui encadrent les autorisations de couplage d’enregistrements ainsi que leur diffusion.

    Date de diffusion : 2016-10-27

  • Articles et rapports : 89-648-X2016001
    Description :

    Les couplages entre les données des enquêtes et les données administratives sont une pratique de plus en plus répandue, d’une part parce qu’ils réduisent le fardeau de réponse des répondants, et d’autre part parce qu’ils permettent d’obtenir des données à un coût relativement faible. Le couplage rétrospectif, soit le couplage de données administratives des années antérieures avec celles de l’année de l’enquête, cumule ces avantages en offrant des années supplémentaires de données. Le présent document porte sur l’Étude longitudinale et internationale des adultes (ELIA), qui a été couplée avec les données fiscales rétrospectives sur les déclarations de revenus des particuliers (T1) et les données tirées des fichiers des entrepreneurs (T4), entre autres documents non cités ici. Il présente les tendances des taux de couplage rétrospectif, compare la cohérence des données administratives entre les fichiers T1 et T4, présente la possibilité d’utiliser les données pour créer des panels équilibrés et emploie les données des T1 pour produire des profils des gains en fonction de l’âge par sexe. Les résultats démontrent que le taux de couplage rétrospectif est supérieur (plus de 90 % dans la plupart des cas) et stable dans le temps chez les répondants susceptibles de produire une déclaration de revenus, et que les sources administratives des T1 et T4 montrent des revenus concordants. En outre, les données administratives de couplage de l’ELIA permettent de créer de longs panels équilibrés couvrant plus de 30 années (au moment de rédiger la présente étude).

    Date de diffusion : 2016-08-18

  • Articles et rapports : 11-522-X201700014745
    Description :

    Au moment de la conception des enquêtes, un certain nombre de paramètres, comme la propension à la prise de contact, la propension à la participation et les coûts par unité d’échantillonnage, jouent un rôle décisif. Dans le cas des enquêtes permanentes, ces paramètres de conception d’enquête sont habituellement estimés à partir de l’expérience antérieure et mis à jour graduellement, au fur et à mesure des nouvelles expériences. Dans les nouvelles enquêtes, ces paramètres sont estimés à partir de l’opinion des experts et de l’expérience acquise dans des enquêtes similaires. Même si les instituts de sondage ont une expertise et une expérience relativement bonnes, l’énoncé, l’estimation et la mise à jour des paramètres de conception d’enquête se font rarement de façon systématique. Dans la présentation, nous proposons un cadre bayésien qui permet de prendre en compte et de mettre à jour les connaissances acquises et les opinions des experts concernant les paramètres. Ce cadre est établi dans le contexte de plans de collecte adaptatifs, dans lesquels les différentes unités de population peuvent être traitées différemment compte tenu des objectifs de qualité et de coût. Pour ce type d’enquête, l’exactitude des paramètres de conception devient encore plus cruciale pour prendre des décisions efficaces. Le cadre permet une analyse bayésienne du rendement d’une enquête pendant la collecte des données et entre les vagues. Nous démontrons l’analyse bayésienne au moyen d’une étude de simulation réaliste.

    Date de diffusion : 2016-03-24
Références (58)

Références (58) (0 à 10 de 58 résultats)

  • Enquêtes et programmes statistiques — Documentation : 11-522-X201700014749
    Description :

    Dans le cadre du remaniement du Programme de la statistique du tourisme, Statistique Canada élabore l’Enquête nationale sur les voyages (ENV), qui recueillera de l’information relativement aux voyages effectués par les voyageurs canadiens. Cette nouvelle enquête remplacera l’actuelle Enquête sur les voyages des résidents du Canada, de même que la composante reliée aux voyages des résidents canadiens de l’Enquête sur les voyages internationaux. L’ENV tirera parti des bases de sondage communes de Statistique Canada et des outils de traitement communs, tout en maximisant l’utilisation des données administratives. Dans cette communication, on montrera comment les données administratives, comme celles provenant des fichiers de Passeport Canada, de l’Agence des services frontaliers du Canada et de l’Agence du revenu du Canada, pourraient servir à améliorer l’efficacité du plan de sondage de l’ENV.

    Date de diffusion : 2016-03-24

  • Enquêtes et programmes statistiques — Documentation : 12-001-X201100211606
    Description :

    Cet article introduit une compilation spéciale du U.S. Census Bureau en présentant quatre articles du présent numéro : trois articles des auteurs Tillé, Lohr et Thompson de même qu'un article de discussion de l'auteur Opsomer.

    Date de diffusion : 2011-12-21

  • Enquêtes et programmes statistiques — Documentation : 12-001-X201100211607
    Description :

    Le présent article décrit les progrès récents dans le domaine des stratégies d'échantillonnage adaptatif et présente de nouvelles variantes de ces stratégies. Les progrès récents comprennent les plans d'échantillonnage à marche aléatoire ciblée et l'échantillonnage adaptatif « en toile ». Ces plans conviennent particulièrement bien pour l'échantillonnage par réseau; par exemple pour obtenir un échantillon de personnes appartenant à une population humaine cachée en suivant les liens sociaux partant d'un groupe de personnes échantillonnées pour trouver d'autres membres de la population cachée à ajouter à l'échantillon. Chacun de ces plans peut également être transposé à des conditions spatiales pour produire de nouvelles stratégies d'échantillonnage adaptatif spatial souples, applicables à des populations réparties non uniformément. Les variantes de ces stratégies d'échantillonnage comprennent celles où les liens du réseau ou les liens spatiaux ont des poids inégaux et sont suivis avec des probabilités inégales.

    Date de diffusion : 2011-12-21

  • Enquêtes et programmes statistiques — Documentation : 12-001-X201100211608
    Description :

    Les plans de sondage et les estimateurs des enquêtes à base de sondage unique utilisés à l'heure actuelle par les organismes gouvernementaux américains ont été élaborés en réponse à des problèmes pratiques. Les programmes d'enquêtes-ménages fédéraux doivent faire face aujourd'hui à la diminution des taux de réponse et de la couverture des bases de sondage, à la hausse des coûts de collecte des données et à l'accroissement de la demande de statistiques pour des petits domaines. Les enquêtes à bases de sondage multiples, dans lesquelles des échantillons indépendants sont tirés de bases de sondage distinctes, peuvent être utilisées en vue de relever certains de ces défis. La combinaison d'une liste et d'une base de sondage aréolaire ou l'utilisation de deux bases de sondage pour échantillonner les ménages ayant une ligne de téléphone fixe et ceux ayant une ligne de téléphone mobile en sont des exemples. Nous passons en revue les estimateurs ponctuels et les ajustements de la pondération qui peuvent être utilisés pour analyser les données d'enquête à bases de sondage multiples au moyen de logiciels standard et nous résumons la construction des poids de rééchantillonnage pour l'estimation de la variance. Étant donné leur complexité croissante, les enquêtes à bases de sondage multiples obligent à résoudre des difficultés qui ne se posent pas dans le cas des enquêtes à base de sondage simple. Nous étudions le biais dû à l'erreur de classification dans les enquêtes à bases de sondage multiples et proposons une méthode pour corriger ce biais quand les probabilités d'erreur de classification sont connues. Enfin, nous discutons des travaux de recherche nécessaires en ce qui concerne les erreurs non dues à l'échantillonnage dans les enquêtes à bases de sondage multiples.

    Date de diffusion : 2011-12-21

  • Enquêtes et programmes statistiques — Documentation : 12-001-X201000211385
    Description :

    Dans cette note brève, nous montrons que l'échantillonnage aléatoire sans remise et l'échantillonnage de Bernoulli ont à peu près la même entropie quand la taille de la population est grande. Nous donnons un exemple empirique en guise d'illustration.

    Date de diffusion : 2010-12-21

  • Enquêtes et programmes statistiques — Documentation : 12-001-X201000111249
    Description :

    Dans le cas de nombreux plans de sondage, la probabilité de sélectionner un échantillon qui produira de mauvaises estimations pour des quantités connues n'est pas nulle. L'échantillonnage aléatoire stratifié permet de réduire l'ensemble de ces échantillons éventuels en fixant la taille de l'échantillon dans chaque strate. Cependant, l'obtention d'échantillons indésirables demeure possible après la stratification. L'échantillonnage réjectif permet d'éliminer les échantillons donnant de mauvais résultats en ne retenant un échantillon que si des fonctions spécifiées des estimations sont comprises entre des limites de tolérance par rapport aux valeurs connues. Les échantillons résultant sont souvent dits équilibrés sur la fonction des variables utilisées dans la méthode de rejet. Nous présentons des modifications de la méthode de rejet de Fuller (2009a) qui donnent plus de souplesse aux règles de rejet. Au moyen de simulations, nous comparons les propriétés des estimations obtenues en suivant une méthode d'échantillonnage réjectif, d'une part, et une procédure d'échantillonnage par la méthode du cube, d'autre part.

    Date de diffusion : 2010-06-29

  • Enquêtes et programmes statistiques — Documentation : 12-001-X200900211037
    Description :

    Les stratégies fondées sur la réponse aléatoire, qui ont été élaborées au départ à titre de méthodes statistiques destinées à réduire la non-réponse ainsi que la réponse mensongère, peuvent aussi être appliquées dans le domaine du contrôle de la divulgation statistique dans les fichiers de microdonnées à grande diffusion. Le présent article décrit une standardisation des méthodes de réponse aléatoire en vue d'estimer des proportions pour des attributs identificatoires ou sensibles. Les propriétés statistiques de l'estimateur standardisé sont établies dans le cas de l'échantillonnage probabiliste général. Afin d'analyser l'effet du choix des « paramètres de plan » implicites de la méthode sur la performance de l'estimateur, nous incluons dans l'étude des mesures de la protection de la vie privée. Nous obtenons ainsi des paramètres de plan qui optimisent la variance, sachant le niveau de protection de la vie privée. Pour cela, les variables doivent être classées dans diverses catégories de sensibilité. Un exemple fondé sur des données réelles illustre l'application de la méthode à une enquête sur la tricherie chez les étudiants.

    Date de diffusion : 2009-12-23

  • Enquêtes et programmes statistiques — Documentation : 12-001-X200900110880
    Description :

    Le présent article décrit un cadre pour l'estimation par calage sous les plans d'échantillonnage à deux phases. Les travaux présentés découlent de la poursuite du développement de logiciels généralisés d'estimation à Statistique Canada. Un objectif important de ce développement est d'offrir une grande gamme d'options en vue d'utiliser efficacement l'information auxiliaire dans différents plans d'échantillonnage. Cet objectif est reflété dans la méthodologie générale pour les plans d'échantillonnage à deux phases exposée dans le présent article.

    Nous considérons le plan d'échantillonnage à deux phases classique. Un échantillon de première phase est tiré à partir d'une population finie, puis un échantillon de deuxième phase est tiré en tant que sous échantillon du premier. La variable étudiée, dont le total de population inconnu doit être estimé, est observée uniquement pour les unités contenues dans l'échantillon de deuxième phase. Des plans d'échantillonnage arbitraires sont permis à chaque phase de l'échantillonnage. Divers types d'information auxiliaire sont identifiés pour le calcul des poids de calage à chaque phase. Les variables auxiliaires et les variables étudiées peuvent être continues ou catégoriques.

    L'article apporte une contribution à quatre domaines importants dans le contexte général du calage pour les plans d'échantillonnage à deux phases :1) nous dégageons trois grands types d'information auxiliaire pour les plans à deux phases et les utilisons dans l'estimation. L'information est intégrée dans les poids en deux étapes : un calage de première phase et un calage de deuxième phase. Nous discutons de la composition des vecteurs auxiliaires appropriés pour chaque étape et utilisons une méthode de linéarisation pour arriver aux résidus qui déterminent la variance asymptotique de l'estimateur par calage ;2) nous examinons l'effet de divers choix de poids de départ pour le calage. Les deux choix « naturels » produisent généralement des estimateurs légèrement différents. Cependant, sous certaines conditions, ces deux estimateurs ont la même variance asymptotique ;3) nous réexaminons l'estimation de la variance pour l'estimateur par calage à deux phases. Nous proposons une nouvelle méthode qui peut représenter une amélioration considérable par rapport à la technique habituelle de conditionnement sur l'échantillon de première phase. Une simulation décrite à la section 10 sert à valider les avantages de cette nouvelle méthode ;4) nous comparons l'approche par calage à la méthode de régression assistée par modèle classique qui comporte l'ajustement d'un modèle de régression linéaire à deux niveaux. Nous montrons que l'estimateur assisté par modèle a des propriétés semblables à celles d'un estimateur par calage à deux phases.

    Date de diffusion : 2009-06-22

  • Enquêtes et programmes statistiques — Documentation : 12-001-X200800210760
    Description :

    Pour concevoir un échantillon aléatoire simple stratifié sans remise à partir d'une population finie, il faut résoudre deux grandes questions : définir une règle de partition de la population en strates et répartir les unités d'échantillonnage entre les strates sélectionnées. Dans le présent article, nous examinons une stratégie arborescente en vue d'aborder conjointement ces deux questions quand l'enquête est polyvalente et que de l'information multivariée, quantitative ou qualitative, est disponible. Nous formons les strates à l'aide d'un algorithme divisif hiérarchique qui sélectionne des partitions de plus en plus fines en minimisant, à chaque étape, la répartition d'échantillon requise pour atteindre les niveaux de précision établis pour chaque variable étudiée. De cette façon, nous pouvons satisfaire un grand nombre de contraintes sans augmenter fortement la taille globale d'échantillon et sans écarter certaines variables sélectionnées pour la stratification ni diminuer le nombre de leurs intervalles de classe. En outre, l'algorithme a tendance à ne pas définir de strate vide ou presque vide, ce qui évite de devoir regrouper certaines strates. Nous avons appliqué la méthode au remaniement de l'Enquête sur la structure des exploitations agricoles en Italie. Les résultats indiquent que le gain d'efficacité réalisé en utilisant notre stratégie n'est pas trivial. Pour une taille d'échantillon donnée, cette méthode permet d'obtenir la précision requise en exploitant un nombre de strates qui est habituellement égal à une fraction très faible du nombre de strates disponibles quand on combine toutes les classes possibles provenant de n'importe quelle covariable.

    Date de diffusion : 2008-12-23

  • Enquêtes et programmes statistiques — Documentation : 12-001-X200800210763
    Description :

    Le présent article décrit une stratégie d'échantillonnage utile pour obtenir une taille d'échantillon planifiée pour des domaines appartenant à différentes partitions de la population et pour garantir que les erreurs d'échantillonnage des estimations de domaine soient inférieures à un seuil donné. La stratégie d'échantillonnage, qui englobe le cas multidomaine multivarié, est avantageuse quand la taille globale d'échantillon est bornée et que, par conséquent, la solution standard consistant à utiliser un échantillon stratifié dont les strates sont obtenues par le recoupement des variables qui définissent les diverses partitions n'est pas faisable, puisque le nombre de strates est plus grand que la taille globale d'échantillon. La stratégie d'échantillonnage proposée est fondée sur l'utilisation d'une méthode d'échantillonnage équilibré et sur une estimation de type GREG. Le principal avantage de la solution est la faisabilité des calculs, laquelle permet de mettre en oeuvre facilement une stratégie globale d'estimation pour petits domaines qui tient compte simultanément du plan d'échantillonnage et de l'estimateur, et qui améliore l'efficacité des estimateurs directs de domaine. Les propriétés empiriques de la stratégie d'échantillonnage étudiée sont illustrées au moyen d'une simulation portant sur des données de population réelles et divers estimateurs de domaine.

    Date de diffusion : 2008-12-23
Date de modification :