Recherche par mot-clé

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Type

1 facets displayed. 1 facets selected.

Géographie

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (45)

Tout (45) (0 à 10 de 45 résultats)

  • Articles et rapports : 11-522-X202100100008
    Description :

    Les organismes nationaux de statistique étudient de plus en plus la possibilité d'utiliser des échantillons non probabilistes en complément des échantillons probabilistes. Nous examinons le scénario où la variable d’intérêt et les variables auxiliaires sont observées à la fois dans un échantillon probabiliste et un échantillon non probabiliste. Nous cherchons à utiliser les données de l’échantillon non probabiliste pour améliorer l’efficacité des estimations pondérées par les poids d’enquête obtenues à partir de l’échantillon probabiliste. Récemment, Sakshaug, Wisniowski, Ruiz et Blom (2019) et Wisniowski, Sakshaug, Ruiz et Blom (2020) ont proposé une approche bayésienne visant à intégrer les données des deux échantillons aux fins de l’estimation des paramètres du modèle. Dans leur méthode, on utilise les données de l’échantillon non probabiliste pour déterminer la distribution a priori des paramètres du modèle et on obtient la distribution a posteriori en supposant que le plan de sondage probabiliste est ignorable (ou non informatif). Nous étendons cette approche bayésienne à la prédiction de paramètres d’une population finie dans le cadre d’un échantillonnage non ignorable (ou informatif) en nous appuyant sur des statistiques pondérées par des poids d’enquête appropriées. Nous illustrons les propriétés de notre prédicteur au moyen d’une étude par simulations.

    Mots clés : prédiction bayésienne; échantillonnage de Gibbs; échantillonnage non ignorable; intégration des données statistiques.

    Date de diffusion : 2021-10-29

  • Articles et rapports : 12-001-X201500214230
    Description :

    Le présent article décrit l’élaboration de méthodes de répartition pour des enquêtes par sondage avec stratification quand l’utilisation d’estimateurs sur petits domaines composites est une priorité et que les domaines servent de strates. Longford (2006) a proposé pour cette situation un critère objectif fondé sur une combinaison pondérée des erreurs quadratiques moyennes des moyennes de petit domaine et d’une moyenne globale. Ici, nous redéfinissons cette approche dans un cadre assisté par modèle, ce qui permet l’utilisation de variables explicatives et une interprétation plus naturelle des résultats en utilisant un paramètre de corrélation intraclasse. Nous considérons aussi plusieurs utilisations de la répartition exponentielle et permettons l’application d’autres contraintes, telle une valeur maximale de la racine carrée relative de l’erreur quadratique moyenne, aux estimateurs de strate. Nous constatons qu’une répartition exponentielle simple peut donner des résultats très près d’être aussi bons que le plan optimal, même quand l’objectif est de minimiser le critère de Longford (2006).

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201500214248
    Description :

    L’utilisation de modèles de population au niveau de l’unité pour estimer des totaux et des moyennes de petit domaine en se fondant sur un modèle est fréquente, mais il se peut que le modèle ne soit pas vérifié pour l’échantillon si le plan d’échantillonnage est informatif pour le modèle. Par conséquent, les méthodes d’estimation classiques, qui supposent que le modèle est vérifié pour l’échantillon, peuvent donner des estimateurs biaisés. Nous étudions d’autres méthodes comprenant l’utilisation d’une fonction appropriée de la probabilité de sélection des unités en tant que variable auxiliaire supplémentaire dans le modèle de l’échantillon. Nous présentons les résultats d’une étude en simulation du biais et de l’erreur quadratique moyenne (EQM) des estimateurs proposés des moyennes de petit domaine et du biais relatif des estimateurs de l’EQM connexes, en utilisant des plans d’échantillonnage informatifs pour générer les échantillons. D’autres méthodes, fondées sur la modélisation de l’espérance conditionnelle du poids de sondage sous forme d’une fonction des covariables du modèle et de la réponse, sont également incluses dans l’étude en simulation.

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201300111823
    Description :

    Bien que l'utilisation de pondérations soit très répandue dans l'échantillonnage, leur justification ultime dans la perspective du plan de sondage pose souvent problème. Ici, nous argumentons en faveur d'une justification bayésienne séquentielle des pondérations qui ne dépend pas explicitement du plan de sondage. Cette approche s'appuie sur le type classique d'information présent dans les variables auxiliaires, mais ne suppose pas qu'un modèle relie les variables auxiliaires aux caractéristiques d'intérêt. La pondération résultante d'une unité de l'échantillon peut être interprétée de la manière habituelle comme étant le nombre d'unités de la population que cette unité représente.

    Date de diffusion : 2013-06-28

  • Articles et rapports : 12-001-X201300111824
    Description :

    Dans la plupart des enquêtes, le même traitement est réservé à toutes les unités échantillonnées et les mêmes caractéristiques de plan de collecte des données s'appliquent à toutes les personnes et à tous les ménages sélectionnés. Le présent article explique comment les plans de collecte des données peuvent être adaptés en vue d'optimiser la qualité, étant donné des contraintes de coûts. Ces types de plans sont appelés plans de collecte adaptatifs. Les éléments fondamentaux de ce genre de plans sont présentés, discutés et illustrés au moyen de divers exemples.

    Date de diffusion : 2013-06-28

  • Articles et rapports : 12-001-X201200111682
    Description :

    Les questions concernant la répartition de l'échantillon sont étudiées dans le contexte de l'estimation des moyennes de sous-population (strate ou domaine), ainsi que de la moyenne de population agrégée sous-échantillonnage aléatoire simple stratifié. Une méthode de programmation non linéaire est utilisée pour obtenir la répartition « optimale » de l'échantillon entre les strates qui minimise la taille totale d'échantillon sous la contrainte des tolérances spécifiées pour les coefficients de variation des estimateurs des moyennes de strate et de la moyenne de population. La taille totale d'échantillon résultante est alors utilisée pour déterminer les répartitions de l'échantillon par les méthodes de Costa, Satorra et Ventura (2004) s'appuyant sur une répartition intermédiaire ou de compromis et de Longford (2006) fondée sur des « priorités inférencielles » spécifiées. En outre, nous étudions la répartition de l'échantillon entre les strates quand sont également spécifiées des exigences de fiabilité pour des domaines qui recoupent les strates. Les propriétés des trois méthodes sont étudiées au moyen de données provenant de l'Enquête mensuelle sur le commerce de détail (EMCD) menée par Statistique Canada auprès d'établissements uniques.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X201200111683
    Description :

    Nous considérons diverses options de remplacement de la poststratification dans le cas de données croisées à deux dimensions pour lesquelles la fréquence d'au moins l'une des cellules du tableau à double entrée est trop faible pour permettre la poststratification en se basant sur cette classification double. Dans le jeu de données utilisé pour l'étude, la fréquence prévue dans la cellule la plus petite est de 0,36. Une approche consiste simplement à regrouper certaine cellules. Néanmoins, il est probable que cela détruise la structure de la classification double. Les approches de remplacement que nous proposons permettent de maintenir la classification à double entrée originale des données. Elles sont fondées sur l'étude du calage de Chang et Kott (2008). Nous choisissons des ajustements des pondérations qui dépendent des classifications marginales (mais non de la classification croisée complète) pour minimiser une fonction d'objectif correspondant aux différences entre les fréquences dans la population et dans les cellules du tableau à double entrée et leurs estimations sur échantillon. Selon la terminologie de Chang et Kott (2008), si les classifications par ligne et par colonne comprennent I et J cellules, respectivement, on obtient IJ variables de référence et I + J - 1 variables du modèle. Nous étudions les propriétés de ces estimateurs en créant des échantillons aléatoires simples pour la simulation d'après les données du Quarterly Census of Employment and Wages de 2005 tenues à jour par le Bureau of Labor Statistics. Nous procédons à la classification croisée de l'État et du groupe d'industries. Dans notre étude, comparativement à l'estimateur sans biais, les approches de calage introduisent un biais asymptotiquement négligeable, mais donnent une réduction de l'EQM pouvant aller jusqu'à 20 % pour un petit échantillon.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X201100111443
    Description :

    Les enquêtes téléphoniques à base de sondage double deviennent fréquentes aux États-Unis en raison de l'incomplétude de la liste de numéros de téléphone fixe causée par l'adoption progressive du téléphone mobile. Le présent article traite des erreurs non dues à l'échantillonnage dans les enquêtes téléphoniques à base de sondage double. Alors que la plupart des publications sur les bases de sondage doubles ne tiennent pas compte des erreurs non dues à l'échantillonnage, nous constatons que ces dernières peuvent, dans certaines conditions, causer des biais importants dans les enquêtes téléphoniques à base de sondage double. Nous examinons en particulier les biais dus à la non-réponse et à l'erreur de mesure dans ces enquêtes. En vue de réduire le biais résultant de ces erreurs, nous proposons des méthodes d'échantillonnage à base de sondage double et de pondération. Nous montrons que le facteur de composition utilisé pour combiner les estimations provenant de deux bases de sondage joue un rôle important dans la réduction du biais de non-réponse.

    Date de diffusion : 2011-06-29

  • Articles et rapports : 12-001-X201100111447
    Description :

    Ce document présente un programme R pour la stratification d'une population d'enquête à l'aide d'une variable unidimensionnelle X et pour le calcul de tailles d'échantillon dans les strates. Nous y employons des méthodes non itératives pour délimiter les strates, comme la méthode de la fonction cumulative de la racine carrée des fréquences et la méthode géométrique. Nous pouvons élaborer des plans optimaux où les bornes de strates minimisent soit le CV de l'estimateur simple par dilatation pour une taille fixe d'échantillon n, soit la valeur n pour un CV fixe. Nous disposons de deux algorithmes itératifs pour le calcul des bornes optimales. Le plan peut comporter des strates à tirage obligatoire qui sont définies par l'utilisateur et dont toutes les unités sont échantillonnées. Il est également possible d'inclure dans le plan stratifié des strates à tirage complet et à tirage nul qui permettent souvent de réduire les tailles d'échantillon. Les calculs de taille d'échantillon sont fondés sur les moments anticipés de la variable d'enquête Y étant donné la variable de stratification X. Le programme traite les distributions conditionnelles de Y étant donné X qui sont soit un modèle linéaire hétéroscédastique soit un modèle loglinéaire. Nous pouvons tenir compte de la non-réponse par strate dans l'élaboration du plan d'échantillonnage et dans les calculs de taille d'échantillon.

    Date de diffusion : 2011-06-29

  • Articles et rapports : 12-001-X201100111449
    Description :

    Nous analysons l'efficacité statistique et économique de diverses enquêtes avec échantillonnage en grappes pour lesquelles la collecte des données est effectuée à deux périodes, ou vagues, consécutives. Dans le cas d'un plan à échantillons indépendants, un échantillon en grappes est tiré de manière indépendante à chacune des deux vagues. Dans le cas d'un plan à panel de grappes, les mêmes grappes sont utilisées aux deux vagues, mais le tirage des échantillons dans les grappes est effectué indépendamment aux deux périodes. Dans un plan à panel d'unités d'observation, les grappes ainsi que les unités d'observation sont retenues d'une vague de collecte des données à l'autre. En supposant que la structure de la population est simple, nous calculons les variances sous le plan ainsi que les coûts des enquêtes réalisées selon ces divers types de plan. Nous considérons d'abord l'estimation de la variation de la moyenne de population entre deux périodes et nous déterminons les répartitions d'échantillon optimales pour les trois plans étudiés. Nous proposons ensuite un cadre de maximisation de l'utilité emprunté à la microéconomie en vue d'illustrer une approche possible pour choisir le plan dans laquelle nous nous efforçons d'optimiser simultanément plusieurs variances. La prise en compte simultanée de plusieurs moyennes et de leurs variances a tendance à faire pencher la préférence du plan à panel d'unités d'observation vers les plans à panel de grappes et à échantillons indépendants plus simples si le mode de collecte de données par panel est trop coûteux. Nous présentons des exemples numériques qui illustrent comment un concepteur d'enquête pourrait choisir le plan efficace sachant les paramètres de population et les coûts de collecte des données.

    Date de diffusion : 2011-06-29
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (45)

Analyses (45) (30 à 40 de 45 résultats)

  • Articles et rapports : 11-522-X20050019491
    Géographie : Canada
    Description :

    L'évaluation de l'impact des changements de services sur l'état de santé des personnes âgées fragiles nécessite des études longitudinales. Beaucoup de sujets sont toutefois perdus lors du suivi vu l'incidence élevée de décès dans cette population. Les méthodes traditionnelles d'analyses de mesures répétées deviennent inappropriées puisque la nécessité d'ignorer les sujets ayant des suivis incomplets mène à une diminution considérable de la taille d'échantillon ainsi qu'à des biais.

    Date de diffusion : 2007-03-02

  • Articles et rapports : 12-001-X20050029040
    Description :

    Une grande partie de la théorie des enquêtes par sondage a été motivée directement par des problèmes d'ordre pratique survenus au moment de la conception et de l'analyse des enquêtes. En revanche, la théorie des enquêtes par sondage a influencé la pratique, ce qui a souvent donné lieu à des améliorations importantes. Dans le présent article, nous examinons cette interaction au cours des 60 dernières années. Nous présentons également des exemples où une nouvelle théorie est nécessaire ou encore où la théorie existe sans être utilisée.

    Date de diffusion : 2006-02-17

  • Articles et rapports : 12-001-X20040016993
    Description :

    L'estimateur à cellules de pondération corrige la non réponse totale par subdivision de l'échantillon en groupes homogènes (cellules) et application d'une correction par quotient aux répondants compris dans chaque cellule. Les études antérieures des propriétés statistiques des estimateurs à cellules de pondération se fondaient sur l'hypothèse que ces cellules correspondent à des cellules de population connues dont les caractéristiques sont homogènes. Dans le présent article, nous étudions les propriétés de l'estimateur à cellules de pondération sous un modèle de probabilité de réponse qui ne nécessite pas la spécification correcte de cellules de population homogènes. Nous supposons plutôt que la probabilité de réponse est une fonction lisse, mais par ailleurs non spécifiée, d'une variable auxiliaire connue. Sous ce modèle plus général, nous étudions la robustesse de l'estimateur à cellules de pondération à la spécification incorrecte du modèle. Nous montrons que, même si les cellules de population sont inconnues, l'estimateur est convergent par rapport au plan d'échantillonnage et au modèle de réponse. Nous décrivons l'effet du nombre de cellules de pondération sur les propriétés asymptotiques de l'estimateur. Au moyen d'expériences de simulation, nous explorons les propriétés de population finie de l'estimateur. Pour conclure, nous donnons certaines lignes directrices concernant le choix de la taille des cellules et de leur nombre pour l'application pratique de l'estimation fondée sur des cellules de pondération lorsqu'on ne peut spécifier ces cellules a priori.

    Date de diffusion : 2004-07-14

  • Articles et rapports : 12-001-X20040016996
    Description :

    Dans cet article, nous étudions l'utilisation de la distribution échantillonnale pour prévoir les totaux de population finie à l'aide d'un échantillonnage à un seul degré. Les prédicteurs proposés emploient les valeurs échantillonnées de la variable d'enquête cible, les poids d'échantillonnage des unités d'échantillonnage et les valeurs (peut-être connues) des variables auxiliaires dans la population. Nous résolvons le problème prévisionnel en estimant l'espérance des valeurs de l'étude pour les unités à l'extérieur de l'échantillon, en fonction de l'espérance correspondante selon la distribution échantillonnale et les poids d'échantillonnage. L'erreur quadratique moyenne de la prévision est estimée par la combinaison d'une procédure d'échantillonnage inverse et d'une méthode de rééchantillonnage. Un résultat intéressant de la présente analyse est que plusieurs estimateurs familiers, d'usage courant, sont en fait des cas spéciaux de l'approche proposée, et celle ci leur en donne donc une nouvelle interprétation. L'efficacité des nouveaux prédicteurs et de quelques prédicteurs couramment utilisés est évaluée et comparée par simulation de Monte Carlo avec un ensemble de données réelles.

    Date de diffusion : 2004-07-14

  • Articles et rapports : 12-001-X20040016997
    Description :

    Les modèles multiniveaux sont souvent ajustés en fonction des données d'enquête recueillies dans le cadre d'un plan d'échantillonnage complexe à plusieurs degrés. Toutefois, lorsqu'un tel plan est informatif - en ce sens que les probabilités d'inclusion, même si on les subordonne aux covariables, dépendent de la variable réponse -, les estimateurs standard du maximum de vraisemblance seront biaisés. Dans la présente étude, nous inspirant de l'approche du pseudo maximum de vraisemblance (PMV) de Skinner (1989), nous proposons une procédure d'estimation à pondération probabiliste dans le cadre de modèles multiniveaux ordinaux et binaires, de façon à supprimer le biais découlant du caractère informatif du plan d'échantillonnage. On utilise la valeur inverse des probabilités d'inclusion à chaque degré d'échantillonnage pour pondérer la fonction logarithmique de vraisemblance; les estimateurs pondérés que l'on obtient ainsi sont testés au moyen d'une étude de simulation dans le cas simple d'un modèle binaire à l'ordonnée à l'origine aléatoire, avec et sans covariables. Les estimateurs de la variance sont obtenus au moyen d'une procédure bootstrap. Pour maximiser le logarithme du rapport de vraisemblance pondéré du modèle, nous avons recours à la procédure NLMIXED du SAS, qui repose elle-même sur une version adaptative de la quadrature gaussienne. Également, l'estimation bootstrap des variances est effectuée dans l'environnement du SAS.

    Date de diffusion : 2004-07-14

  • Articles et rapports : 11-522-X20010016252
    Description :

    Cette publication comporte une description détaillée des questions techniques entourant la conception et la réalisation d'enquêtes et s'adresse surtout à des méthodologistes.

    L'utilisation de la coordination d'échantillons est primordiale pour les enquêtes-entreprises, car c'est une façon d'étaler le fardeau des enquêtes. Dans bien des méthodes de coordination, les numéros aléatoires qui caractérisent les unités sont permanents et le mode d'échantillonnage varie. Dans la méthode des microstrates, c'est la fonction de sélection qui est permanente. En revanche, les numéros aléatoires font l'objet d'une permutation systématique entre unités à diverses fins de coordination, qu'il s'agisse d'étaler le fardeau des enquêtes, d'actualiser des échantillons permanents ou de réduire au minimum le chevauchement entre deux enquêtes. Les permutations se font aux intersections de strates appelées microstrates. La méthode des microstrates offre de bonnes propriétés mathématiques et une stratégie générale de coordination d'échantillons où les apparitions, les disparitions et les changements de strates font l'objet d'un traitement automatique. Il n'y a aucune contrainte particulière pour les stratifications ni pour les taux de renouvellement des échantillons permanents. On a conçu deux logiciels pour l'application de cette méthode et son évolution future, à savoir SALOMON en 1998 et MICROSTRAT en 2001.

    Date de diffusion : 2002-09-12

  • Articles et rapports : 12-001-X20010026095
    Description :

    Nous discutons de l'application du bootstrap avec une étape de réimputation en vue de tenir compte de la variance due à l'imputation (Shao et Sitter 1996) dans le cas d'un échantillonnage stratifié à plusieurs degrès. Nous proposons une méthode bootstrap modifiée qui ne nécessite pas de rééchelonnement si bien que la méthode de Shao et Sitter peut être appliquée au cas de l'imputation aléatoire lorsque la taille de l'échantillon de strate de premier degré est très petite. La méthode que nous proposons est une méthode unifiée, applicable quelle que soit la méthode d'imputation (aléatoire on non aléatoire), la taille de la strate (petite ou grande), le genre d'estimateur (lisse ou non lisse) ou le genre de problème (estimation de la variance ou estimation de la distribution d'échantillonnage). En outre, nous discutons de l'approximation de Monte Carlo qu'il convient d'utiliser pour la variance bootstrap lorsque l'on conjugue la réimputation à des méthodes de rééchantillonnage. Dans ces conditions, on doit agir plus prudemment qu'à l'ordinaire. Nous obtenons des résultats comparables pour la méthode des répliques équilibrées répétées qui est souvent utilisée dans le contexte des enquêtes et peut être considérée comme une approximation analytique du bootstrap. Enfin, nous présentons certains résultats d'étude en simulation afin d'examiner les propriétés de l'échantillon de taille finie et divers estimateurs de la variance applicables en cas d'imputation des données.

    Date de diffusion : 2002-02-28

  • Articles et rapports : 12-001-X20010015856
    Description :

    On recourt fréquemment à l'imputation pour compenser la non-réponse partielle. L'estimation de la variance après imputation a suscité de nombreux débats et plusieurs estimateurs ont été proposés. Nous proposons un estimateur de la variance fondé sur un ensemble de pseudo-données créé uniquement pour estimer la variance. L'application des estimateurs type de la variance de données complètes à l'ensemble de pseudo-données produit des estimateurs cohérents dans le cas des estimateurs linéaires pour diverses méthodes d'imputation, y compris l'imputation par la méthode hot deck sans remise et avec remise. Nous illustrons l'équivalence asymptotique de la méthode proposée et de la méthode corrigée du jackknife de Rao et Sitter (1995). La méthode proposée s'applique directement à l'estimation de la variance en cas d'échantillonnage à deux phases.

    Date de diffusion : 2001-08-22

  • Articles et rapports : 12-001-X20010015858
    Description :

    L'objectif de cet article consiste à étudier et à mesurer le changement (du poids initial au poids final) qui est produit par la procédure de modification des poids. Une décomposition des poids finaux est proposée pour évaluer l'incidence relative de l'ajustement de non-réponse, la correction pour la poststratification et l'interaction entre ces deux ajustements. On utilise cette mesure de changement comme outil pour comparer l'efficacité de diverses méthodes d'ajustement pour la non-réponse, notamment les méthodes reposant sur la formation de groupes de réponse homogénes. La mesure de changement est étudiée par l'entremise d'une étude de simulation utilisant les données d'une enquête longitudinale de Statistique Canada, soit l'Enquête sur la dynamique du travail et du revenu. La mesure de changement est également appliquée aux données d'une deuxième enquête longitudinale, c'est-à-dire à l'Enquête nationale longitudinale sur les enfants et les jeunes.

    Date de diffusion : 2001-08-22

  • Articles et rapports : 12-001-X20010015859
    Description :

    L'INSEE a réalisé en 2001 une enquête destinée à mieux connaître la population sans domicile. En l'absence de base de sondage permettant d'atteindre directement les personnes sans domicile, le principe de l'enquête est d'échantillonner des prestations qui leur sont destinées et d'interroger les individus qui bénéficient de ces prestations. Lorsque l'on désire pondérer les observations individuelles issues de l'enquête, une difficulté surgit du fait qu'un individu peut bénéficier de plusieurs prestations pendant la période de référence considérée. Cet article montre comment il est possible d'appliquer la méthode du partage des poids pour résoudre ce problème. Dans ce type d'enquête, une même variable peut donner lieu à plusieurs paramètres d'intérêt, correspondant à des populations variant avec le temps. À chaque définition des paramètres correspond un jeu de poids. L'article insiste particulièrement sur le calcul de poids un jour moyen et une semaine moyenne. On donne également des éléments sur les données de fréquentation à collecter et la correction de la non-réponse.

    Date de diffusion : 2001-08-22
Références (0)

Références (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :