Aide à l'ordre
entrées

Résultats

Tout (266)

Tout (266) (0 à 10 de 266 résultats)

  • Revues et périodiques : 75F0002M
    Description :

    Cette série comprend de la documentation détaillée sur revenu, notamment les problèmes de conception, l'évaluation qualitative des données et les recherches préliminaires.

    Date de diffusion : 2019-07-18

  • Articles et rapports : 12-001-X201900200003
    Description :

    Dans divers domaines, il est de plus en plus important de fusionner les sources d’information disponibles pour améliorer les estimations des caractéristiques de la population. En présence de plusieurs échantillons probabilistes indépendants d’une population finie, nous examinons plusieurs solutions d’estimateur combiné du total de la population, basé soit sur une combinaison linéaire d’estimateurs distincts, soit sur une méthode par échantillon combiné. L’estimateur en combinaison linéaire fondé sur des variances estimées est susceptible d’être biaisé, car les estimateurs distincts du total de la population peuvent être fortement corrélés à leurs estimateurs de la variance respectifs. Nous illustrons la possibilité d’utiliser un échantillon combiné pour estimer les variances des estimateurs distincts, ce qui donne des estimateurs de la variance groupés généraux. Ces estimateurs de la variance groupés utilisent tous les renseignements disponibles et peuvent réduire considérablement le biais d’une combinaison linéaire d’estimateurs distincts.

    Date de diffusion : 2019-06-27

  • Articles et rapports : 12-001-X201900200006
    Description :

    Ce document présente un nouvel algorithme pour résoudre le problème de stratification unidimensionnelle optimale, lequel se ramène à une détermination des bornes de strate. Lorsque le nombre de strates H et la taille totale de l’échantillon n sont fixes, on obtient les bornes de strate en minimisant la variance de l’estimateur d’un total pour la variable de stratification. C’est un algorithme qui fait appel à la métaheuristique de l’algorithme génétique biaisé à clés aléatoires (BRKGA) pour trouver la solution optimale. Il a été démontré que cette métaheuristique produit des solutions de bonne qualité à de nombreux problèmes d’optimisation à un prix modeste en temps de calcul. L’algorithme est mis en œuvre dans le package stratbr en R disponible à partir de CRAN (de Moura Brito, do Nascimento Silva et da Veiga, 2017a). Nous livrons des résultats numériques pour un ensemble de 27 populations, ce qui permet de comparer le nouvel algorithme à certaines méthodes rivales figurant dans la documentation spécialisée. L’algorithme est d’un meilleur rendement que les méthodes plus simples par approximation. Il est également supérieur à quelques autres approches en optimisation. Il est égal en rendement à la meilleure technique d’optimisation que l’on doit à Kozak (2004). Son principal avantage sur la méthode de Kozak réside dans le couplage de la stratification optimale avec la répartition optimale que proposent de Moura Brito, do Nascimento Silva, Silva Semaan et Maculan (2015), d’où l’assurance que, si les bornes de stratification obtenues atteignent l’optimum global, la solution dégagée dans l’ensemble sera aussi l’optimum global pour les bornes de stratification et la répartition de l’échantillon.

    Date de diffusion : 2019-06-27

  • Articles et rapports : 12-001-X201900200007
    Description :

    Quand on ajuste une variable catégorique ordonnée à L > 2 niveaux à un ensemble de covariables sur données d’enquêtes à plans complexes, on suppose communément que les éléments de la population suivent un modèle simple de régression logistique cumulative (modèle de régression logistique à cotes proportionnelles). Cela signifie que la probabilité que la variable catégorique se situe à un certain niveau ou au-dessous est une fonction logistique binaire des covariables du modèle. Ajoutons, sauf pour l’ordonnée à l’origine, les valeurs des paramètres de régression logistique sont les mêmes à chaque niveau. La méthode « fondée sur le plan » classique servant à ajuster le modèle à cotes proportionnelles est fondée sur le pseudo-maximum de vraisemblance. Nous comparons les estimations calculées par cette méthode à celles d’un traitement dans un cadre basé sur un modèle robuste sensible au plan. Nous indiquons par un simple exemple numérique en quoi les estimations tirées de ces deux traitements peuvent différer. La nouvelle méthode peut facilement s’élargir pour ajuster un modèle logistique cumulatif général où l’hypothèse du parallélisme peut ne pas se vérifier. Un test de cette hypothèse peut aisément s’ensuivre.

    Date de diffusion : 2019-06-27

  • Articles et rapports : 12-001-X201800254953
    Description :

    La coordination d’échantillons vise à créer une dépendance probabiliste entre la sélection de deux ou plusieurs échantillons tirés d’une même population ou de populations qui chevauchent. La coordination positive augmente le chevauchement espéré des échantillons, tandis que la coordination négative le réduit. Il existe de nombreuses applications de la coordination d’échantillons dont les objectifs varient. Un échantillon spatialement équilibré est un échantillon bien étalé dans un espace donné. Forcer l’étalement des échantillons sélectionnés est une technique générale très efficace de réduction de la variance pour l’estimateur de Horvitz-Thompson. La méthode du pivot local et l’échantillonnage de Poisson spatialement corrélé sont deux plans généraux pour obtenir des échantillons bien étalés. Notre but est d’introduire une coordination basée sur le concept des nombres aléatoires permanents pour ces méthodes d’échantillonnage. L’objectif est de coordonner les échantillons tout en préservant l’équilibre spatial. Les méthodes proposées sont motivées par des exemples empruntés à la foresterie, aux études environnementales et à la statistique officielle.

    Date de diffusion : 2018-12-20

  • Articles et rapports : 12-001-X201800254954
    Description :

    Ces dernières années, les techniques d’échantillonnage équilibré ont suscité un regain d’intérêt. Ces techniques contraignent les estimateurs d’Horvitz-Thompson des totaux des variables auxiliaires a égaler, du moins approximativement, les totaux vrais correspondants, pour éviter la présence de mauvais échantillons. Plusieurs procédures existent pour exécuter l’échantillonnage équilibré, dont la méthode du cube, élaborée par Deville et Tillé (2004), et l’algorithme réjectif, introduit par Hájek (1964). Après un bref examen de ces méthodes d’échantillonnage, motivé par la planification d’une enquête auprès des pêcheurs sportifs, nous étudions par simulations Monte Carlo les plans de sondage produits par ces deux algorithmes d’échantillonnage.

    Date de diffusion : 2018-12-20

  • Articles et rapports : 12-001-X201800254959
    Description :

    Cet article propose un critère de calcul du paramètre de compromis dans les répartitions dites « mixtes », c’est-à-dire qui mélangent deux répartitions classiques en théorie des sondages. Dans les enquêtes auprès des entreprises de l’Insee (Institut National de la Statistique et des Études Économiques), il est courant d’utiliser la moyenne arithmétique d’une répartition proportionnelle et d’une répartition de Neyman (correspondant à un paramètre de compromis de 0,5). Il est possible d’obtenir une valeur du paramètre de compromis aboutissant à de meilleures propriétés pour les estimateurs. Cette valeur appartient à une région qui est obtenue en résolvant un programme d’optimisation. Différentes méthodes de calcul de ce paramètre seront présentées. Une application sur des enquêtes auprès des entreprises est présentée, avec comparaison avec d’autres répartitions de compromis usuelles.

    Date de diffusion : 2018-12-20

  • Articles et rapports : 12-001-X201800154925
    Description :

    Le présent article traite de l’inférence statistique sous un modèle de superpopulation en population finie quand on utilise des échantillons obtenus par échantillonnage d’ensembles ordonnés (EEO). Les échantillons sont construits sans remise. Nous montrons que la moyenne d’échantillon sous EEO est sans biais par rapport au modèle et présente une plus petite erreur de prédiction quadratique moyenne (EPQM) que la moyenne sous échantillonnage aléatoire simple (EAS). Partant d’un estimateur sans biais de l’EPQM, nous construisons aussi un intervalle de confiance de prédiction pour la moyenne de population. Une étude en simulation à petite échelle montre que cet estimateur est aussi bon qu’un estimateur sur échantillon aléatoire simple (EAS) quand l’information pour le classement est de qualité médiocre. Par ailleurs, cet estimateur est plus efficace que l’estimateur EAS quand la qualité de l’information de classement est bonne et que le ratio des coûts de l’obtention d’une unité sous EEO et sous EAS n’est pas très élevé. L’étude en simulation indique aussi que les probabilités de couverture des intervalles de prédiction sont très proches des probabilités de couverture nominales. La procédure d’inférence proposée est appliquée à un ensemble de données réel.

    Date de diffusion : 2018-06-21

  • Articles et rapports : 12-001-X201800154929
    Description :

    Le U.S. Census Bureau étudie des stratégies de sous-échantillonnage des non-répondants en prévision de l’Economic Census de 2017. Les contraintes imposées au plan de sondage comprennent une borne inférieure obligatoire pour le taux de réponse totale, ainsi que des taux de réponse cibles par industrie. Le présent article expose la recherche sur les procédures de répartition de l’échantillon pour le sous-échantillonnage des non-répondants conditionnellement à ce que ce sous-échantillonnage soit systématique. Nous considérons deux approches, à savoir 1) l’échantillonnage avec probabilités égales et 2) la répartition optimisée avec contraintes sur les taux de réponse totale et la taille d’échantillon, avec pour objectif la sélection de plus grands échantillons dans les industries qui, au départ, affichent des taux de réponse plus faibles. Nous présentons une étude en simulation qui examine le biais relatif et l’erreur quadratique moyenne pour les répartitions proposées, en évaluant la sensibilité de chaque procédure à la taille du sous-échantillon, aux propensions à répondre et à la procédure d’estimation

    Date de diffusion : 2018-06-21

  • Articles et rapports : 12-001-X201700114817
    Description :

    Nous présentons les résultats de notre recherche sur les modes de répartition d’échantillons qui permettent de faire une estimation efficace sur petits domaines par modélisation dans les cas où les domaines d’intérêt coïncident avec les strates. Les méthodes d’estimation assistées d’un modèle et celles fondées sur un modèle sont répandues dans la production de statistiques relatives aux petits domaines, mais l’utilisation du modèle et de la méthode d’estimation sous-jacents est rarement intégrée au plan de répartition de l’échantillon entre les domaines. C’est pourquoi nous avons conçu un nouveau mode de répartition fondée sur un modèle que nous avons appelé répartition g1. Aux fins de comparaison, nous décrivons un autre mode de répartition fondée sur un modèle qui a récemment vu le jour. Ces deux répartitions sont fondées sur une mesure ajustée de l’homogénéité qui se calcule à l’aide d’une variable auxiliaire et constitue une approximation de la corrélation intraclasse à l’intérieur des domaines. Nous avons choisi cinq solutions de répartition par domaine sans modèle, adoptées par le passé dans le cadre d’études spécialisées, comme méthodes de référence. Pour une répartition égale ou proportionnelle, il nous faut connaître le nombre de domaines ainsi que le nombre d’unités statistiques de base dans chacun d’eux. Les répartitions de Neyman et de Bankier et la répartition par programmation non linéaire (PNL), nécessitent des paramètres au niveau du domaine comme l’écart-type, le coefficient de variation ou les totaux. En règle générale, on peut caractériser les méthodes de répartition en fonction des critères d’optimisation et de l’utilisation de données auxiliaires. On évalue alors les propriétés statistiques des diverses méthodes retenues au moyen d’expériences de simulation d’échantillon faisant appel aux données réelles du registre de population. Selon les résultats de simulation, on peut conclure que l’intégration du modèle et de la méthode d’estimation à la méthode de répartition a pour effet d’améliorer les résultats de l’estimation.

    Date de diffusion : 2017-06-22
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (224)

Analyses (224) (0 à 10 de 224 résultats)

  • Revues et périodiques : 75F0002M
    Description :

    Cette série comprend de la documentation détaillée sur revenu, notamment les problèmes de conception, l'évaluation qualitative des données et les recherches préliminaires.

    Date de diffusion : 2019-07-18

  • Articles et rapports : 12-001-X201900200003
    Description :

    Dans divers domaines, il est de plus en plus important de fusionner les sources d’information disponibles pour améliorer les estimations des caractéristiques de la population. En présence de plusieurs échantillons probabilistes indépendants d’une population finie, nous examinons plusieurs solutions d’estimateur combiné du total de la population, basé soit sur une combinaison linéaire d’estimateurs distincts, soit sur une méthode par échantillon combiné. L’estimateur en combinaison linéaire fondé sur des variances estimées est susceptible d’être biaisé, car les estimateurs distincts du total de la population peuvent être fortement corrélés à leurs estimateurs de la variance respectifs. Nous illustrons la possibilité d’utiliser un échantillon combiné pour estimer les variances des estimateurs distincts, ce qui donne des estimateurs de la variance groupés généraux. Ces estimateurs de la variance groupés utilisent tous les renseignements disponibles et peuvent réduire considérablement le biais d’une combinaison linéaire d’estimateurs distincts.

    Date de diffusion : 2019-06-27

  • Articles et rapports : 12-001-X201900200006
    Description :

    Ce document présente un nouvel algorithme pour résoudre le problème de stratification unidimensionnelle optimale, lequel se ramène à une détermination des bornes de strate. Lorsque le nombre de strates H et la taille totale de l’échantillon n sont fixes, on obtient les bornes de strate en minimisant la variance de l’estimateur d’un total pour la variable de stratification. C’est un algorithme qui fait appel à la métaheuristique de l’algorithme génétique biaisé à clés aléatoires (BRKGA) pour trouver la solution optimale. Il a été démontré que cette métaheuristique produit des solutions de bonne qualité à de nombreux problèmes d’optimisation à un prix modeste en temps de calcul. L’algorithme est mis en œuvre dans le package stratbr en R disponible à partir de CRAN (de Moura Brito, do Nascimento Silva et da Veiga, 2017a). Nous livrons des résultats numériques pour un ensemble de 27 populations, ce qui permet de comparer le nouvel algorithme à certaines méthodes rivales figurant dans la documentation spécialisée. L’algorithme est d’un meilleur rendement que les méthodes plus simples par approximation. Il est également supérieur à quelques autres approches en optimisation. Il est égal en rendement à la meilleure technique d’optimisation que l’on doit à Kozak (2004). Son principal avantage sur la méthode de Kozak réside dans le couplage de la stratification optimale avec la répartition optimale que proposent de Moura Brito, do Nascimento Silva, Silva Semaan et Maculan (2015), d’où l’assurance que, si les bornes de stratification obtenues atteignent l’optimum global, la solution dégagée dans l’ensemble sera aussi l’optimum global pour les bornes de stratification et la répartition de l’échantillon.

    Date de diffusion : 2019-06-27

  • Articles et rapports : 12-001-X201900200007
    Description :

    Quand on ajuste une variable catégorique ordonnée à L > 2 niveaux à un ensemble de covariables sur données d’enquêtes à plans complexes, on suppose communément que les éléments de la population suivent un modèle simple de régression logistique cumulative (modèle de régression logistique à cotes proportionnelles). Cela signifie que la probabilité que la variable catégorique se situe à un certain niveau ou au-dessous est une fonction logistique binaire des covariables du modèle. Ajoutons, sauf pour l’ordonnée à l’origine, les valeurs des paramètres de régression logistique sont les mêmes à chaque niveau. La méthode « fondée sur le plan » classique servant à ajuster le modèle à cotes proportionnelles est fondée sur le pseudo-maximum de vraisemblance. Nous comparons les estimations calculées par cette méthode à celles d’un traitement dans un cadre basé sur un modèle robuste sensible au plan. Nous indiquons par un simple exemple numérique en quoi les estimations tirées de ces deux traitements peuvent différer. La nouvelle méthode peut facilement s’élargir pour ajuster un modèle logistique cumulatif général où l’hypothèse du parallélisme peut ne pas se vérifier. Un test de cette hypothèse peut aisément s’ensuivre.

    Date de diffusion : 2019-06-27

  • Articles et rapports : 12-001-X201800254953
    Description :

    La coordination d’échantillons vise à créer une dépendance probabiliste entre la sélection de deux ou plusieurs échantillons tirés d’une même population ou de populations qui chevauchent. La coordination positive augmente le chevauchement espéré des échantillons, tandis que la coordination négative le réduit. Il existe de nombreuses applications de la coordination d’échantillons dont les objectifs varient. Un échantillon spatialement équilibré est un échantillon bien étalé dans un espace donné. Forcer l’étalement des échantillons sélectionnés est une technique générale très efficace de réduction de la variance pour l’estimateur de Horvitz-Thompson. La méthode du pivot local et l’échantillonnage de Poisson spatialement corrélé sont deux plans généraux pour obtenir des échantillons bien étalés. Notre but est d’introduire une coordination basée sur le concept des nombres aléatoires permanents pour ces méthodes d’échantillonnage. L’objectif est de coordonner les échantillons tout en préservant l’équilibre spatial. Les méthodes proposées sont motivées par des exemples empruntés à la foresterie, aux études environnementales et à la statistique officielle.

    Date de diffusion : 2018-12-20

  • Articles et rapports : 12-001-X201800254954
    Description :

    Ces dernières années, les techniques d’échantillonnage équilibré ont suscité un regain d’intérêt. Ces techniques contraignent les estimateurs d’Horvitz-Thompson des totaux des variables auxiliaires a égaler, du moins approximativement, les totaux vrais correspondants, pour éviter la présence de mauvais échantillons. Plusieurs procédures existent pour exécuter l’échantillonnage équilibré, dont la méthode du cube, élaborée par Deville et Tillé (2004), et l’algorithme réjectif, introduit par Hájek (1964). Après un bref examen de ces méthodes d’échantillonnage, motivé par la planification d’une enquête auprès des pêcheurs sportifs, nous étudions par simulations Monte Carlo les plans de sondage produits par ces deux algorithmes d’échantillonnage.

    Date de diffusion : 2018-12-20

  • Articles et rapports : 12-001-X201800254959
    Description :

    Cet article propose un critère de calcul du paramètre de compromis dans les répartitions dites « mixtes », c’est-à-dire qui mélangent deux répartitions classiques en théorie des sondages. Dans les enquêtes auprès des entreprises de l’Insee (Institut National de la Statistique et des Études Économiques), il est courant d’utiliser la moyenne arithmétique d’une répartition proportionnelle et d’une répartition de Neyman (correspondant à un paramètre de compromis de 0,5). Il est possible d’obtenir une valeur du paramètre de compromis aboutissant à de meilleures propriétés pour les estimateurs. Cette valeur appartient à une région qui est obtenue en résolvant un programme d’optimisation. Différentes méthodes de calcul de ce paramètre seront présentées. Une application sur des enquêtes auprès des entreprises est présentée, avec comparaison avec d’autres répartitions de compromis usuelles.

    Date de diffusion : 2018-12-20

  • Articles et rapports : 12-001-X201800154925
    Description :

    Le présent article traite de l’inférence statistique sous un modèle de superpopulation en population finie quand on utilise des échantillons obtenus par échantillonnage d’ensembles ordonnés (EEO). Les échantillons sont construits sans remise. Nous montrons que la moyenne d’échantillon sous EEO est sans biais par rapport au modèle et présente une plus petite erreur de prédiction quadratique moyenne (EPQM) que la moyenne sous échantillonnage aléatoire simple (EAS). Partant d’un estimateur sans biais de l’EPQM, nous construisons aussi un intervalle de confiance de prédiction pour la moyenne de population. Une étude en simulation à petite échelle montre que cet estimateur est aussi bon qu’un estimateur sur échantillon aléatoire simple (EAS) quand l’information pour le classement est de qualité médiocre. Par ailleurs, cet estimateur est plus efficace que l’estimateur EAS quand la qualité de l’information de classement est bonne et que le ratio des coûts de l’obtention d’une unité sous EEO et sous EAS n’est pas très élevé. L’étude en simulation indique aussi que les probabilités de couverture des intervalles de prédiction sont très proches des probabilités de couverture nominales. La procédure d’inférence proposée est appliquée à un ensemble de données réel.

    Date de diffusion : 2018-06-21

  • Articles et rapports : 12-001-X201800154929
    Description :

    Le U.S. Census Bureau étudie des stratégies de sous-échantillonnage des non-répondants en prévision de l’Economic Census de 2017. Les contraintes imposées au plan de sondage comprennent une borne inférieure obligatoire pour le taux de réponse totale, ainsi que des taux de réponse cibles par industrie. Le présent article expose la recherche sur les procédures de répartition de l’échantillon pour le sous-échantillonnage des non-répondants conditionnellement à ce que ce sous-échantillonnage soit systématique. Nous considérons deux approches, à savoir 1) l’échantillonnage avec probabilités égales et 2) la répartition optimisée avec contraintes sur les taux de réponse totale et la taille d’échantillon, avec pour objectif la sélection de plus grands échantillons dans les industries qui, au départ, affichent des taux de réponse plus faibles. Nous présentons une étude en simulation qui examine le biais relatif et l’erreur quadratique moyenne pour les répartitions proposées, en évaluant la sensibilité de chaque procédure à la taille du sous-échantillon, aux propensions à répondre et à la procédure d’estimation

    Date de diffusion : 2018-06-21

  • Articles et rapports : 12-001-X201700114817
    Description :

    Nous présentons les résultats de notre recherche sur les modes de répartition d’échantillons qui permettent de faire une estimation efficace sur petits domaines par modélisation dans les cas où les domaines d’intérêt coïncident avec les strates. Les méthodes d’estimation assistées d’un modèle et celles fondées sur un modèle sont répandues dans la production de statistiques relatives aux petits domaines, mais l’utilisation du modèle et de la méthode d’estimation sous-jacents est rarement intégrée au plan de répartition de l’échantillon entre les domaines. C’est pourquoi nous avons conçu un nouveau mode de répartition fondée sur un modèle que nous avons appelé répartition g1. Aux fins de comparaison, nous décrivons un autre mode de répartition fondée sur un modèle qui a récemment vu le jour. Ces deux répartitions sont fondées sur une mesure ajustée de l’homogénéité qui se calcule à l’aide d’une variable auxiliaire et constitue une approximation de la corrélation intraclasse à l’intérieur des domaines. Nous avons choisi cinq solutions de répartition par domaine sans modèle, adoptées par le passé dans le cadre d’études spécialisées, comme méthodes de référence. Pour une répartition égale ou proportionnelle, il nous faut connaître le nombre de domaines ainsi que le nombre d’unités statistiques de base dans chacun d’eux. Les répartitions de Neyman et de Bankier et la répartition par programmation non linéaire (PNL), nécessitent des paramètres au niveau du domaine comme l’écart-type, le coefficient de variation ou les totaux. En règle générale, on peut caractériser les méthodes de répartition en fonction des critères d’optimisation et de l’utilisation de données auxiliaires. On évalue alors les propriétés statistiques des diverses méthodes retenues au moyen d’expériences de simulation d’échantillon faisant appel aux données réelles du registre de population. Selon les résultats de simulation, on peut conclure que l’intégration du modèle et de la méthode d’estimation à la méthode de répartition a pour effet d’améliorer les résultats de l’estimation.

    Date de diffusion : 2017-06-22
Références (58)

Références (58) (0 à 10 de 58 résultats)

  • Enquêtes et programmes statistiques — Documentation : 11-522-X201700014749
    Description :

    Dans le cadre du remaniement du Programme de la statistique du tourisme, Statistique Canada élabore l’Enquête nationale sur les voyages (ENV), qui recueillera de l’information relativement aux voyages effectués par les voyageurs canadiens. Cette nouvelle enquête remplacera l’actuelle Enquête sur les voyages des résidents du Canada, de même que la composante reliée aux voyages des résidents canadiens de l’Enquête sur les voyages internationaux. L’ENV tirera parti des bases de sondage communes de Statistique Canada et des outils de traitement communs, tout en maximisant l’utilisation des données administratives. Dans cette communication, on montrera comment les données administratives, comme celles provenant des fichiers de Passeport Canada, de l’Agence des services frontaliers du Canada et de l’Agence du revenu du Canada, pourraient servir à améliorer l’efficacité du plan de sondage de l’ENV.

    Date de diffusion : 2016-03-24

  • Enquêtes et programmes statistiques — Documentation : 12-001-X201100211606
    Description :

    Cet article introduit une compilation spéciale du U.S. Census Bureau en présentant quatre articles du présent numéro : trois articles des auteurs Tillé, Lohr et Thompson de même qu'un article de discussion de l'auteur Opsomer.

    Date de diffusion : 2011-12-21

  • Enquêtes et programmes statistiques — Documentation : 12-001-X201100211607
    Description :

    Le présent article décrit les progrès récents dans le domaine des stratégies d'échantillonnage adaptatif et présente de nouvelles variantes de ces stratégies. Les progrès récents comprennent les plans d'échantillonnage à marche aléatoire ciblée et l'échantillonnage adaptatif « en toile ». Ces plans conviennent particulièrement bien pour l'échantillonnage par réseau; par exemple pour obtenir un échantillon de personnes appartenant à une population humaine cachée en suivant les liens sociaux partant d'un groupe de personnes échantillonnées pour trouver d'autres membres de la population cachée à ajouter à l'échantillon. Chacun de ces plans peut également être transposé à des conditions spatiales pour produire de nouvelles stratégies d'échantillonnage adaptatif spatial souples, applicables à des populations réparties non uniformément. Les variantes de ces stratégies d'échantillonnage comprennent celles où les liens du réseau ou les liens spatiaux ont des poids inégaux et sont suivis avec des probabilités inégales.

    Date de diffusion : 2011-12-21

  • Enquêtes et programmes statistiques — Documentation : 12-001-X201100211608
    Description :

    Les plans de sondage et les estimateurs des enquêtes à base de sondage unique utilisés à l'heure actuelle par les organismes gouvernementaux américains ont été élaborés en réponse à des problèmes pratiques. Les programmes d'enquêtes-ménages fédéraux doivent faire face aujourd'hui à la diminution des taux de réponse et de la couverture des bases de sondage, à la hausse des coûts de collecte des données et à l'accroissement de la demande de statistiques pour des petits domaines. Les enquêtes à bases de sondage multiples, dans lesquelles des échantillons indépendants sont tirés de bases de sondage distinctes, peuvent être utilisées en vue de relever certains de ces défis. La combinaison d'une liste et d'une base de sondage aréolaire ou l'utilisation de deux bases de sondage pour échantillonner les ménages ayant une ligne de téléphone fixe et ceux ayant une ligne de téléphone mobile en sont des exemples. Nous passons en revue les estimateurs ponctuels et les ajustements de la pondération qui peuvent être utilisés pour analyser les données d'enquête à bases de sondage multiples au moyen de logiciels standard et nous résumons la construction des poids de rééchantillonnage pour l'estimation de la variance. Étant donné leur complexité croissante, les enquêtes à bases de sondage multiples obligent à résoudre des difficultés qui ne se posent pas dans le cas des enquêtes à base de sondage simple. Nous étudions le biais dû à l'erreur de classification dans les enquêtes à bases de sondage multiples et proposons une méthode pour corriger ce biais quand les probabilités d'erreur de classification sont connues. Enfin, nous discutons des travaux de recherche nécessaires en ce qui concerne les erreurs non dues à l'échantillonnage dans les enquêtes à bases de sondage multiples.

    Date de diffusion : 2011-12-21

  • Enquêtes et programmes statistiques — Documentation : 12-001-X201000211385
    Description :

    Dans cette note brève, nous montrons que l'échantillonnage aléatoire sans remise et l'échantillonnage de Bernoulli ont à peu près la même entropie quand la taille de la population est grande. Nous donnons un exemple empirique en guise d'illustration.

    Date de diffusion : 2010-12-21

  • Enquêtes et programmes statistiques — Documentation : 12-001-X201000111249
    Description :

    Dans le cas de nombreux plans de sondage, la probabilité de sélectionner un échantillon qui produira de mauvaises estimations pour des quantités connues n'est pas nulle. L'échantillonnage aléatoire stratifié permet de réduire l'ensemble de ces échantillons éventuels en fixant la taille de l'échantillon dans chaque strate. Cependant, l'obtention d'échantillons indésirables demeure possible après la stratification. L'échantillonnage réjectif permet d'éliminer les échantillons donnant de mauvais résultats en ne retenant un échantillon que si des fonctions spécifiées des estimations sont comprises entre des limites de tolérance par rapport aux valeurs connues. Les échantillons résultant sont souvent dits équilibrés sur la fonction des variables utilisées dans la méthode de rejet. Nous présentons des modifications de la méthode de rejet de Fuller (2009a) qui donnent plus de souplesse aux règles de rejet. Au moyen de simulations, nous comparons les propriétés des estimations obtenues en suivant une méthode d'échantillonnage réjectif, d'une part, et une procédure d'échantillonnage par la méthode du cube, d'autre part.

    Date de diffusion : 2010-06-29

  • Enquêtes et programmes statistiques — Documentation : 12-001-X200900211037
    Description :

    Les stratégies fondées sur la réponse aléatoire, qui ont été élaborées au départ à titre de méthodes statistiques destinées à réduire la non-réponse ainsi que la réponse mensongère, peuvent aussi être appliquées dans le domaine du contrôle de la divulgation statistique dans les fichiers de microdonnées à grande diffusion. Le présent article décrit une standardisation des méthodes de réponse aléatoire en vue d'estimer des proportions pour des attributs identificatoires ou sensibles. Les propriétés statistiques de l'estimateur standardisé sont établies dans le cas de l'échantillonnage probabiliste général. Afin d'analyser l'effet du choix des « paramètres de plan » implicites de la méthode sur la performance de l'estimateur, nous incluons dans l'étude des mesures de la protection de la vie privée. Nous obtenons ainsi des paramètres de plan qui optimisent la variance, sachant le niveau de protection de la vie privée. Pour cela, les variables doivent être classées dans diverses catégories de sensibilité. Un exemple fondé sur des données réelles illustre l'application de la méthode à une enquête sur la tricherie chez les étudiants.

    Date de diffusion : 2009-12-23

  • Enquêtes et programmes statistiques — Documentation : 12-001-X200900110880
    Description :

    Le présent article décrit un cadre pour l'estimation par calage sous les plans d'échantillonnage à deux phases. Les travaux présentés découlent de la poursuite du développement de logiciels généralisés d'estimation à Statistique Canada. Un objectif important de ce développement est d'offrir une grande gamme d'options en vue d'utiliser efficacement l'information auxiliaire dans différents plans d'échantillonnage. Cet objectif est reflété dans la méthodologie générale pour les plans d'échantillonnage à deux phases exposée dans le présent article.

    Nous considérons le plan d'échantillonnage à deux phases classique. Un échantillon de première phase est tiré à partir d'une population finie, puis un échantillon de deuxième phase est tiré en tant que sous échantillon du premier. La variable étudiée, dont le total de population inconnu doit être estimé, est observée uniquement pour les unités contenues dans l'échantillon de deuxième phase. Des plans d'échantillonnage arbitraires sont permis à chaque phase de l'échantillonnage. Divers types d'information auxiliaire sont identifiés pour le calcul des poids de calage à chaque phase. Les variables auxiliaires et les variables étudiées peuvent être continues ou catégoriques.

    L'article apporte une contribution à quatre domaines importants dans le contexte général du calage pour les plans d'échantillonnage à deux phases :1) nous dégageons trois grands types d'information auxiliaire pour les plans à deux phases et les utilisons dans l'estimation. L'information est intégrée dans les poids en deux étapes : un calage de première phase et un calage de deuxième phase. Nous discutons de la composition des vecteurs auxiliaires appropriés pour chaque étape et utilisons une méthode de linéarisation pour arriver aux résidus qui déterminent la variance asymptotique de l'estimateur par calage ;2) nous examinons l'effet de divers choix de poids de départ pour le calage. Les deux choix « naturels » produisent généralement des estimateurs légèrement différents. Cependant, sous certaines conditions, ces deux estimateurs ont la même variance asymptotique ;3) nous réexaminons l'estimation de la variance pour l'estimateur par calage à deux phases. Nous proposons une nouvelle méthode qui peut représenter une amélioration considérable par rapport à la technique habituelle de conditionnement sur l'échantillon de première phase. Une simulation décrite à la section 10 sert à valider les avantages de cette nouvelle méthode ;4) nous comparons l'approche par calage à la méthode de régression assistée par modèle classique qui comporte l'ajustement d'un modèle de régression linéaire à deux niveaux. Nous montrons que l'estimateur assisté par modèle a des propriétés semblables à celles d'un estimateur par calage à deux phases.

    Date de diffusion : 2009-06-22

  • Enquêtes et programmes statistiques — Documentation : 12-001-X200800210760
    Description :

    Pour concevoir un échantillon aléatoire simple stratifié sans remise à partir d'une population finie, il faut résoudre deux grandes questions : définir une règle de partition de la population en strates et répartir les unités d'échantillonnage entre les strates sélectionnées. Dans le présent article, nous examinons une stratégie arborescente en vue d'aborder conjointement ces deux questions quand l'enquête est polyvalente et que de l'information multivariée, quantitative ou qualitative, est disponible. Nous formons les strates à l'aide d'un algorithme divisif hiérarchique qui sélectionne des partitions de plus en plus fines en minimisant, à chaque étape, la répartition d'échantillon requise pour atteindre les niveaux de précision établis pour chaque variable étudiée. De cette façon, nous pouvons satisfaire un grand nombre de contraintes sans augmenter fortement la taille globale d'échantillon et sans écarter certaines variables sélectionnées pour la stratification ni diminuer le nombre de leurs intervalles de classe. En outre, l'algorithme a tendance à ne pas définir de strate vide ou presque vide, ce qui évite de devoir regrouper certaines strates. Nous avons appliqué la méthode au remaniement de l'Enquête sur la structure des exploitations agricoles en Italie. Les résultats indiquent que le gain d'efficacité réalisé en utilisant notre stratégie n'est pas trivial. Pour une taille d'échantillon donnée, cette méthode permet d'obtenir la précision requise en exploitant un nombre de strates qui est habituellement égal à une fraction très faible du nombre de strates disponibles quand on combine toutes les classes possibles provenant de n'importe quelle covariable.

    Date de diffusion : 2008-12-23

  • Enquêtes et programmes statistiques — Documentation : 12-001-X200800210763
    Description :

    Le présent article décrit une stratégie d'échantillonnage utile pour obtenir une taille d'échantillon planifiée pour des domaines appartenant à différentes partitions de la population et pour garantir que les erreurs d'échantillonnage des estimations de domaine soient inférieures à un seuil donné. La stratégie d'échantillonnage, qui englobe le cas multidomaine multivarié, est avantageuse quand la taille globale d'échantillon est bornée et que, par conséquent, la solution standard consistant à utiliser un échantillon stratifié dont les strates sont obtenues par le recoupement des variables qui définissent les diverses partitions n'est pas faisable, puisque le nombre de strates est plus grand que la taille globale d'échantillon. La stratégie d'échantillonnage proposée est fondée sur l'utilisation d'une méthode d'échantillonnage équilibré et sur une estimation de type GREG. Le principal avantage de la solution est la faisabilité des calculs, laquelle permet de mettre en oeuvre facilement une stratégie globale d'estimation pour petits domaines qui tient compte simultanément du plan d'échantillonnage et de l'estimateur, et qui améliore l'efficacité des estimateurs directs de domaine. Les propriétés empiriques de la stratégie d'échantillonnage étudiée sont illustrées au moyen d'une simulation portant sur des données de population réelles et divers estimateurs de domaine.

    Date de diffusion : 2008-12-23
Date de modification :