Aide à l'ordre
entrées

Résultats

Tout (271)

Tout (271) (0 à 10 de 271 résultats)

  • Articles et rapports : 12-001-X202000100002
    Description :

    On a besoin de méthodes par modèle pour estimer des paramètres d’intérêt de petit domaine, comme les totaux et les moyennes, là où les méthodes classiques d’estimation directe ne peuvent garantir une précision suffisante. Les modèles au niveau des unités et au niveau des domaines sont les plus répandus dans la pratique. S’il s’agit d’un modèle au niveau des unités, il est possible d’obtenir des estimateurs efficaces par modèle si le plan de sondage est tel que les modèles d’échantillon et de population coïncident, c’est-à-dire que le plan d’échantillonnage n’est pas informatif pour le modèle en question. Si en revanche le plan de sondage est informatif pour le modèle, les probabilités de sélection seront liées à la variable d’intérêt même après conditionnement par les données auxiliaires disponibles, d’où l’implication que le modèle de la population ne vaut plus pour l’échantillon. Pfeffermann et Sverchkov (2007) se sont reportés aux relations entre les distributions de population et d’échantillon de la variable étudiée pour obtenir des prédicteurs semi-paramétriques approximativement sans biais des moyennes de domaine dans des plans d’échantillonnage informatifs. La procédure qu’ils ont employée est applicable aux domaines avec et sans échantillon. Verret, Rao et Hidiroglou (2015) ont étudié d’autres méthodes utilisant une fonction appropriée des probabilités de sélection d’unités comme variable auxiliaire supplémentaire. Leur technique a donné des estimateurs Empirical Best Linear Unbiased Prediction (EBLUP) approximativement sans biais pour les moyennes de petit domaine. Dans le présent exposé, nous étendons la méthode de Verret et coll. (2015) en ne formant aucune hypothèse au sujet des probabilités d’inclusion. Nous nous contentons d’intégrer ces dernières au modèle au niveau des unités en utilisant une fonction lisse des probabilités d’inclusion. C’est une fonction que nous estimons par une approximation locale donnant un estimateur polynomial local. Nous proposons une méthode bootstrap conditionnelle pour l’estimation de l’erreur quadratique moyenne (EQM) des estimateurs polynomiaux locaux et des estimateurs EBLUP. Nous examinons par simulation le biais et les propriétés d’efficacité de l’estimateur polynomial local. Nous présentons enfin les résultats de l’estimateur bootstrap de l’EQM.

    Date de diffusion : 2020-06-30

  • Articles et rapports : 12-001-X202000100005
    Description :

    La sélection d’une taille d’échantillon adéquate est essentielle à la qualité d’une enquête. Les techniques les plus modernes consistent à tenir compte de plans de sondage complexes en calculant les tailles d’échantillon efficaces. Ces tailles d’échantillon efficaces sont déterminées à l’aide de l’effet de plan des variables d’intérêt centrales. Toutefois, dans les enquêtes en personne, il est souvent suspecté que les estimations empiriques des effets de plan sont confondues avec l’effet des intervieweurs. Parce que cela tend à mener à une surestimation des effets de plan, le risque est souvent d’attribuer incorrectement les ressources à une taille d’échantillon plus élevée au lieu d’utiliser plus d’intervieweurs ou d’améliorer l’exactitude des mesures. C’est pourquoi nous proposons un effet de plan corrigé qui sépare l’effet de l’intervieweur (dit aussi effet enquêteur) des effets du plan de sondage sur la variance due à l’échantillonnage. La capacité d’estimer l’effet de plan corrigé est mise à l’essai au moyen d’une étude par simulations. Dans ce contexte, nous abordons la question de la différenciation entre la variance due aux grappes et celle due aux intervieweurs. Les effets corrigés du plan sont estimés pour les données de la 6e édition de l’Enquête sociale européenne (ESS) et comparés aux estimations classiques de l’effet de plan. En outre, nous montrons que pour certains pays étudiés dans la 6e édition de l’ESS, les estimations de l’effet de plan classique sont effectivement fortement augmentées par les effets de l’intervieweur.

    Date de diffusion : 2020-06-30

  • Revues et périodiques : 75F0002M
    Description :

    Cette série comprend de la documentation détaillée sur revenu, notamment les problèmes de conception, l'évaluation qualitative des données et les recherches préliminaires.

    Date de diffusion : 2020-02-24

  • Articles et rapports : 12-001-X201900300001
    Description :

    Les estimateurs de la variance par linéarisation classiques de l’estimateur par la régression généralisée sont souvent trop petits, ce qui entraîne des intervalles de confiance ne donnant pas le taux de couverture souhaité. Pour remédier à ce problème, on peut apporter des ajustements à la matrice chapeau dans l’échantillonnage à deux degrés. Nous présentons la théorie de plusieurs nouveaux estimateurs de la variance et les comparons aux estimateurs classiques dans une série de simulations. Les estimateurs proposés corrigent les biais négatifs et améliorent les taux de couverture de l’intervalle de confiance dans diverses situations correspondant à celles rencontrées en pratique.

    Date de diffusion : 2019-12-17

  • Articles et rapports : 12-001-X201900300004
    Description :

    Dans les études sociales ou économiques, il faut souvent adopter une vue d’ensemble de la société. Dans les études en agriculture par exemple, on peut établir un lien entre les caractéristiques des exploitations et les activités sociales des particuliers. On devrait donc étudier un phénomène en considérant les variables d’intérêt et en se reportant à cette fin à diverses populations cibles liées entre elles. Pour se renseigner sur un phénomène, on se doit de faire des observations en toute intégration, les unités d’une population devant être observées conjointement avec les unités liées d’une autre. Dans l’exemple de l’agriculture, cela veut dire qu’on devrait prélever un échantillon de ménages ruraux qui serait lié de quelque manière à l’échantillon d’exploitations à utiliser aux fins de l’étude. Il existe plusieurs façons de prélever des échantillons intégrés. Nous analysons ici le problème de la définition d’une stratégie optimale d’échantillonnage dans cette optique. La solution proposée doit réduire le coût d’échantillonnage au minimum et satisfaire une précision préétablie de l’estimation des variables d’intérêt (dans l’une et/ou l’autre des populations) décrivant le phénomène. L’échantillonnage indirect dresse un cadre naturel pour un tel réglage, car les unités appartenant à une population peuvent être porteuses d’une information sur l’autre population visée par l’enquête. Nous étudions ce problème selon divers contextes caractérisant l’information sur les liens disponibles à l’étape du plan de sondage, que les liens entre les unités soient connus à ce stade ou que l’information dont nous disposons sur ces mêmes liens laisse très nettement à désirer. Nous présentons ici une étude empirique de données agricoles pour un pays en développement. On peut y voir combien il est efficace de prendre en compte les probabilités d’inclusion au stade du plan de sondage à l’aide de l’information disponible (sur les liens en l’occurrence) et à quel point on peut ainsi nettement réduire les erreurs des estimations pour la population indirectement observée. Nous démontrons enfin la nécessité de disposer de bons modèles pour la prédiction des variables ou des liens inconnus.

    Date de diffusion : 2019-12-17

  • Articles et rapports : 12-001-X201900300007
    Description :

    Lorsque la base de sondage est importante, il est difficile d’optimiser la stratification et la taille de l’échantillon dans un plan de sondage univarié ou multivarié. Il existe diverses façons de modéliser et de résoudre ce problème. Un des moyens les plus naturels est l’algorithme génétique (AG) combiné à l’algorithme d’évaluation de Bethel-Chromy. Un AG recherche itérativement la taille minimale d’échantillon permettant de respecter les contraintes de précision lorsqu’il s’agit de partitionner les strates atomiques formées par le produit cartésien de variables auxiliaires. Nous signalons un inconvénient avec les AG classiques appliqués à un problème de regroupement et proposons un nouvel algorithme génétique de « regroupement » avec des opérateurs génétiques au lieu des opérateurs classiques. Des expériences indiquent qu’on se trouve ainsi à améliorer nettement la qualité de solution pour un même effort de calcul.

    Date de diffusion : 2019-12-17

  • Articles et rapports : 12-001-X201900200003
    Description :

    Dans divers domaines, il est de plus en plus important de fusionner les sources d’information disponibles pour améliorer les estimations des caractéristiques de la population. En présence de plusieurs échantillons probabilistes indépendants d’une population finie, nous examinons plusieurs solutions d’estimateur combiné du total de la population, basé soit sur une combinaison linéaire d’estimateurs distincts, soit sur une méthode par échantillon combiné. L’estimateur en combinaison linéaire fondé sur des variances estimées est susceptible d’être biaisé, car les estimateurs distincts du total de la population peuvent être fortement corrélés à leurs estimateurs de la variance respectifs. Nous illustrons la possibilité d’utiliser un échantillon combiné pour estimer les variances des estimateurs distincts, ce qui donne des estimateurs de la variance groupés généraux. Ces estimateurs de la variance groupés utilisent tous les renseignements disponibles et peuvent réduire considérablement le biais d’une combinaison linéaire d’estimateurs distincts.

    Date de diffusion : 2019-06-27

  • Articles et rapports : 12-001-X201900200006
    Description :

    Ce document présente un nouvel algorithme pour résoudre le problème de stratification unidimensionnelle optimale, lequel se ramène à une détermination des bornes de strate. Lorsque le nombre de strates H et la taille totale de l’échantillon n sont fixes, on obtient les bornes de strate en minimisant la variance de l’estimateur d’un total pour la variable de stratification. C’est un algorithme qui fait appel à la métaheuristique de l’algorithme génétique biaisé à clés aléatoires (BRKGA) pour trouver la solution optimale. Il a été démontré que cette métaheuristique produit des solutions de bonne qualité à de nombreux problèmes d’optimisation à un prix modeste en temps de calcul. L’algorithme est mis en œuvre dans le package stratbr en R disponible à partir de CRAN (de Moura Brito, do Nascimento Silva et da Veiga, 2017a). Nous livrons des résultats numériques pour un ensemble de 27 populations, ce qui permet de comparer le nouvel algorithme à certaines méthodes rivales figurant dans la documentation spécialisée. L’algorithme est d’un meilleur rendement que les méthodes plus simples par approximation. Il est également supérieur à quelques autres approches en optimisation. Il est égal en rendement à la meilleure technique d’optimisation que l’on doit à Kozak (2004). Son principal avantage sur la méthode de Kozak réside dans le couplage de la stratification optimale avec la répartition optimale que proposent de Moura Brito, do Nascimento Silva, Silva Semaan et Maculan (2015), d’où l’assurance que, si les bornes de stratification obtenues atteignent l’optimum global, la solution dégagée dans l’ensemble sera aussi l’optimum global pour les bornes de stratification et la répartition de l’échantillon.

    Date de diffusion : 2019-06-27

  • Articles et rapports : 12-001-X201900200007
    Description :

    Quand on ajuste une variable catégorique ordonnée à L > 2 niveaux à un ensemble de covariables sur données d’enquêtes à plans complexes, on suppose communément que les éléments de la population suivent un modèle simple de régression logistique cumulative (modèle de régression logistique à cotes proportionnelles). Cela signifie que la probabilité que la variable catégorique se situe à un certain niveau ou au-dessous est une fonction logistique binaire des covariables du modèle. Ajoutons, sauf pour l’ordonnée à l’origine, les valeurs des paramètres de régression logistique sont les mêmes à chaque niveau. La méthode « fondée sur le plan » classique servant à ajuster le modèle à cotes proportionnelles est fondée sur le pseudo-maximum de vraisemblance. Nous comparons les estimations calculées par cette méthode à celles d’un traitement dans un cadre basé sur un modèle robuste sensible au plan. Nous indiquons par un simple exemple numérique en quoi les estimations tirées de ces deux traitements peuvent différer. La nouvelle méthode peut facilement s’élargir pour ajuster un modèle logistique cumulatif général où l’hypothèse du parallélisme peut ne pas se vérifier. Un test de cette hypothèse peut aisément s’ensuivre.

    Date de diffusion : 2019-06-27

  • Articles et rapports : 12-001-X201800254953
    Description :

    La coordination d’échantillons vise à créer une dépendance probabiliste entre la sélection de deux ou plusieurs échantillons tirés d’une même population ou de populations qui chevauchent. La coordination positive augmente le chevauchement espéré des échantillons, tandis que la coordination négative le réduit. Il existe de nombreuses applications de la coordination d’échantillons dont les objectifs varient. Un échantillon spatialement équilibré est un échantillon bien étalé dans un espace donné. Forcer l’étalement des échantillons sélectionnés est une technique générale très efficace de réduction de la variance pour l’estimateur de Horvitz-Thompson. La méthode du pivot local et l’échantillonnage de Poisson spatialement corrélé sont deux plans généraux pour obtenir des échantillons bien étalés. Notre but est d’introduire une coordination basée sur le concept des nombres aléatoires permanents pour ces méthodes d’échantillonnage. L’objectif est de coordonner les échantillons tout en préservant l’équilibre spatial. Les méthodes proposées sont motivées par des exemples empruntés à la foresterie, aux études environnementales et à la statistique officielle.

    Date de diffusion : 2018-12-20
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (229)

Analyses (229) (0 à 10 de 229 résultats)

  • Articles et rapports : 12-001-X202000100002
    Description :

    On a besoin de méthodes par modèle pour estimer des paramètres d’intérêt de petit domaine, comme les totaux et les moyennes, là où les méthodes classiques d’estimation directe ne peuvent garantir une précision suffisante. Les modèles au niveau des unités et au niveau des domaines sont les plus répandus dans la pratique. S’il s’agit d’un modèle au niveau des unités, il est possible d’obtenir des estimateurs efficaces par modèle si le plan de sondage est tel que les modèles d’échantillon et de population coïncident, c’est-à-dire que le plan d’échantillonnage n’est pas informatif pour le modèle en question. Si en revanche le plan de sondage est informatif pour le modèle, les probabilités de sélection seront liées à la variable d’intérêt même après conditionnement par les données auxiliaires disponibles, d’où l’implication que le modèle de la population ne vaut plus pour l’échantillon. Pfeffermann et Sverchkov (2007) se sont reportés aux relations entre les distributions de population et d’échantillon de la variable étudiée pour obtenir des prédicteurs semi-paramétriques approximativement sans biais des moyennes de domaine dans des plans d’échantillonnage informatifs. La procédure qu’ils ont employée est applicable aux domaines avec et sans échantillon. Verret, Rao et Hidiroglou (2015) ont étudié d’autres méthodes utilisant une fonction appropriée des probabilités de sélection d’unités comme variable auxiliaire supplémentaire. Leur technique a donné des estimateurs Empirical Best Linear Unbiased Prediction (EBLUP) approximativement sans biais pour les moyennes de petit domaine. Dans le présent exposé, nous étendons la méthode de Verret et coll. (2015) en ne formant aucune hypothèse au sujet des probabilités d’inclusion. Nous nous contentons d’intégrer ces dernières au modèle au niveau des unités en utilisant une fonction lisse des probabilités d’inclusion. C’est une fonction que nous estimons par une approximation locale donnant un estimateur polynomial local. Nous proposons une méthode bootstrap conditionnelle pour l’estimation de l’erreur quadratique moyenne (EQM) des estimateurs polynomiaux locaux et des estimateurs EBLUP. Nous examinons par simulation le biais et les propriétés d’efficacité de l’estimateur polynomial local. Nous présentons enfin les résultats de l’estimateur bootstrap de l’EQM.

    Date de diffusion : 2020-06-30

  • Articles et rapports : 12-001-X202000100005
    Description :

    La sélection d’une taille d’échantillon adéquate est essentielle à la qualité d’une enquête. Les techniques les plus modernes consistent à tenir compte de plans de sondage complexes en calculant les tailles d’échantillon efficaces. Ces tailles d’échantillon efficaces sont déterminées à l’aide de l’effet de plan des variables d’intérêt centrales. Toutefois, dans les enquêtes en personne, il est souvent suspecté que les estimations empiriques des effets de plan sont confondues avec l’effet des intervieweurs. Parce que cela tend à mener à une surestimation des effets de plan, le risque est souvent d’attribuer incorrectement les ressources à une taille d’échantillon plus élevée au lieu d’utiliser plus d’intervieweurs ou d’améliorer l’exactitude des mesures. C’est pourquoi nous proposons un effet de plan corrigé qui sépare l’effet de l’intervieweur (dit aussi effet enquêteur) des effets du plan de sondage sur la variance due à l’échantillonnage. La capacité d’estimer l’effet de plan corrigé est mise à l’essai au moyen d’une étude par simulations. Dans ce contexte, nous abordons la question de la différenciation entre la variance due aux grappes et celle due aux intervieweurs. Les effets corrigés du plan sont estimés pour les données de la 6e édition de l’Enquête sociale européenne (ESS) et comparés aux estimations classiques de l’effet de plan. En outre, nous montrons que pour certains pays étudiés dans la 6e édition de l’ESS, les estimations de l’effet de plan classique sont effectivement fortement augmentées par les effets de l’intervieweur.

    Date de diffusion : 2020-06-30

  • Revues et périodiques : 75F0002M
    Description :

    Cette série comprend de la documentation détaillée sur revenu, notamment les problèmes de conception, l'évaluation qualitative des données et les recherches préliminaires.

    Date de diffusion : 2020-02-24

  • Articles et rapports : 12-001-X201900300001
    Description :

    Les estimateurs de la variance par linéarisation classiques de l’estimateur par la régression généralisée sont souvent trop petits, ce qui entraîne des intervalles de confiance ne donnant pas le taux de couverture souhaité. Pour remédier à ce problème, on peut apporter des ajustements à la matrice chapeau dans l’échantillonnage à deux degrés. Nous présentons la théorie de plusieurs nouveaux estimateurs de la variance et les comparons aux estimateurs classiques dans une série de simulations. Les estimateurs proposés corrigent les biais négatifs et améliorent les taux de couverture de l’intervalle de confiance dans diverses situations correspondant à celles rencontrées en pratique.

    Date de diffusion : 2019-12-17

  • Articles et rapports : 12-001-X201900300004
    Description :

    Dans les études sociales ou économiques, il faut souvent adopter une vue d’ensemble de la société. Dans les études en agriculture par exemple, on peut établir un lien entre les caractéristiques des exploitations et les activités sociales des particuliers. On devrait donc étudier un phénomène en considérant les variables d’intérêt et en se reportant à cette fin à diverses populations cibles liées entre elles. Pour se renseigner sur un phénomène, on se doit de faire des observations en toute intégration, les unités d’une population devant être observées conjointement avec les unités liées d’une autre. Dans l’exemple de l’agriculture, cela veut dire qu’on devrait prélever un échantillon de ménages ruraux qui serait lié de quelque manière à l’échantillon d’exploitations à utiliser aux fins de l’étude. Il existe plusieurs façons de prélever des échantillons intégrés. Nous analysons ici le problème de la définition d’une stratégie optimale d’échantillonnage dans cette optique. La solution proposée doit réduire le coût d’échantillonnage au minimum et satisfaire une précision préétablie de l’estimation des variables d’intérêt (dans l’une et/ou l’autre des populations) décrivant le phénomène. L’échantillonnage indirect dresse un cadre naturel pour un tel réglage, car les unités appartenant à une population peuvent être porteuses d’une information sur l’autre population visée par l’enquête. Nous étudions ce problème selon divers contextes caractérisant l’information sur les liens disponibles à l’étape du plan de sondage, que les liens entre les unités soient connus à ce stade ou que l’information dont nous disposons sur ces mêmes liens laisse très nettement à désirer. Nous présentons ici une étude empirique de données agricoles pour un pays en développement. On peut y voir combien il est efficace de prendre en compte les probabilités d’inclusion au stade du plan de sondage à l’aide de l’information disponible (sur les liens en l’occurrence) et à quel point on peut ainsi nettement réduire les erreurs des estimations pour la population indirectement observée. Nous démontrons enfin la nécessité de disposer de bons modèles pour la prédiction des variables ou des liens inconnus.

    Date de diffusion : 2019-12-17

  • Articles et rapports : 12-001-X201900300007
    Description :

    Lorsque la base de sondage est importante, il est difficile d’optimiser la stratification et la taille de l’échantillon dans un plan de sondage univarié ou multivarié. Il existe diverses façons de modéliser et de résoudre ce problème. Un des moyens les plus naturels est l’algorithme génétique (AG) combiné à l’algorithme d’évaluation de Bethel-Chromy. Un AG recherche itérativement la taille minimale d’échantillon permettant de respecter les contraintes de précision lorsqu’il s’agit de partitionner les strates atomiques formées par le produit cartésien de variables auxiliaires. Nous signalons un inconvénient avec les AG classiques appliqués à un problème de regroupement et proposons un nouvel algorithme génétique de « regroupement » avec des opérateurs génétiques au lieu des opérateurs classiques. Des expériences indiquent qu’on se trouve ainsi à améliorer nettement la qualité de solution pour un même effort de calcul.

    Date de diffusion : 2019-12-17

  • Articles et rapports : 12-001-X201900200003
    Description :

    Dans divers domaines, il est de plus en plus important de fusionner les sources d’information disponibles pour améliorer les estimations des caractéristiques de la population. En présence de plusieurs échantillons probabilistes indépendants d’une population finie, nous examinons plusieurs solutions d’estimateur combiné du total de la population, basé soit sur une combinaison linéaire d’estimateurs distincts, soit sur une méthode par échantillon combiné. L’estimateur en combinaison linéaire fondé sur des variances estimées est susceptible d’être biaisé, car les estimateurs distincts du total de la population peuvent être fortement corrélés à leurs estimateurs de la variance respectifs. Nous illustrons la possibilité d’utiliser un échantillon combiné pour estimer les variances des estimateurs distincts, ce qui donne des estimateurs de la variance groupés généraux. Ces estimateurs de la variance groupés utilisent tous les renseignements disponibles et peuvent réduire considérablement le biais d’une combinaison linéaire d’estimateurs distincts.

    Date de diffusion : 2019-06-27

  • Articles et rapports : 12-001-X201900200006
    Description :

    Ce document présente un nouvel algorithme pour résoudre le problème de stratification unidimensionnelle optimale, lequel se ramène à une détermination des bornes de strate. Lorsque le nombre de strates H et la taille totale de l’échantillon n sont fixes, on obtient les bornes de strate en minimisant la variance de l’estimateur d’un total pour la variable de stratification. C’est un algorithme qui fait appel à la métaheuristique de l’algorithme génétique biaisé à clés aléatoires (BRKGA) pour trouver la solution optimale. Il a été démontré que cette métaheuristique produit des solutions de bonne qualité à de nombreux problèmes d’optimisation à un prix modeste en temps de calcul. L’algorithme est mis en œuvre dans le package stratbr en R disponible à partir de CRAN (de Moura Brito, do Nascimento Silva et da Veiga, 2017a). Nous livrons des résultats numériques pour un ensemble de 27 populations, ce qui permet de comparer le nouvel algorithme à certaines méthodes rivales figurant dans la documentation spécialisée. L’algorithme est d’un meilleur rendement que les méthodes plus simples par approximation. Il est également supérieur à quelques autres approches en optimisation. Il est égal en rendement à la meilleure technique d’optimisation que l’on doit à Kozak (2004). Son principal avantage sur la méthode de Kozak réside dans le couplage de la stratification optimale avec la répartition optimale que proposent de Moura Brito, do Nascimento Silva, Silva Semaan et Maculan (2015), d’où l’assurance que, si les bornes de stratification obtenues atteignent l’optimum global, la solution dégagée dans l’ensemble sera aussi l’optimum global pour les bornes de stratification et la répartition de l’échantillon.

    Date de diffusion : 2019-06-27

  • Articles et rapports : 12-001-X201900200007
    Description :

    Quand on ajuste une variable catégorique ordonnée à L > 2 niveaux à un ensemble de covariables sur données d’enquêtes à plans complexes, on suppose communément que les éléments de la population suivent un modèle simple de régression logistique cumulative (modèle de régression logistique à cotes proportionnelles). Cela signifie que la probabilité que la variable catégorique se situe à un certain niveau ou au-dessous est une fonction logistique binaire des covariables du modèle. Ajoutons, sauf pour l’ordonnée à l’origine, les valeurs des paramètres de régression logistique sont les mêmes à chaque niveau. La méthode « fondée sur le plan » classique servant à ajuster le modèle à cotes proportionnelles est fondée sur le pseudo-maximum de vraisemblance. Nous comparons les estimations calculées par cette méthode à celles d’un traitement dans un cadre basé sur un modèle robuste sensible au plan. Nous indiquons par un simple exemple numérique en quoi les estimations tirées de ces deux traitements peuvent différer. La nouvelle méthode peut facilement s’élargir pour ajuster un modèle logistique cumulatif général où l’hypothèse du parallélisme peut ne pas se vérifier. Un test de cette hypothèse peut aisément s’ensuivre.

    Date de diffusion : 2019-06-27

  • Articles et rapports : 12-001-X201800254953
    Description :

    La coordination d’échantillons vise à créer une dépendance probabiliste entre la sélection de deux ou plusieurs échantillons tirés d’une même population ou de populations qui chevauchent. La coordination positive augmente le chevauchement espéré des échantillons, tandis que la coordination négative le réduit. Il existe de nombreuses applications de la coordination d’échantillons dont les objectifs varient. Un échantillon spatialement équilibré est un échantillon bien étalé dans un espace donné. Forcer l’étalement des échantillons sélectionnés est une technique générale très efficace de réduction de la variance pour l’estimateur de Horvitz-Thompson. La méthode du pivot local et l’échantillonnage de Poisson spatialement corrélé sont deux plans généraux pour obtenir des échantillons bien étalés. Notre but est d’introduire une coordination basée sur le concept des nombres aléatoires permanents pour ces méthodes d’échantillonnage. L’objectif est de coordonner les échantillons tout en préservant l’équilibre spatial. Les méthodes proposées sont motivées par des exemples empruntés à la foresterie, aux études environnementales et à la statistique officielle.

    Date de diffusion : 2018-12-20
Références (58)

Références (58) (0 à 10 de 58 résultats)

  • Enquêtes et programmes statistiques — Documentation : 11-522-X201700014749
    Description :

    Dans le cadre du remaniement du Programme de la statistique du tourisme, Statistique Canada élabore l’Enquête nationale sur les voyages (ENV), qui recueillera de l’information relativement aux voyages effectués par les voyageurs canadiens. Cette nouvelle enquête remplacera l’actuelle Enquête sur les voyages des résidents du Canada, de même que la composante reliée aux voyages des résidents canadiens de l’Enquête sur les voyages internationaux. L’ENV tirera parti des bases de sondage communes de Statistique Canada et des outils de traitement communs, tout en maximisant l’utilisation des données administratives. Dans cette communication, on montrera comment les données administratives, comme celles provenant des fichiers de Passeport Canada, de l’Agence des services frontaliers du Canada et de l’Agence du revenu du Canada, pourraient servir à améliorer l’efficacité du plan de sondage de l’ENV.

    Date de diffusion : 2016-03-24

  • Enquêtes et programmes statistiques — Documentation : 12-001-X201100211606
    Description :

    Cet article introduit une compilation spéciale du U.S. Census Bureau en présentant quatre articles du présent numéro : trois articles des auteurs Tillé, Lohr et Thompson de même qu'un article de discussion de l'auteur Opsomer.

    Date de diffusion : 2011-12-21

  • Enquêtes et programmes statistiques — Documentation : 12-001-X201100211607
    Description :

    Le présent article décrit les progrès récents dans le domaine des stratégies d'échantillonnage adaptatif et présente de nouvelles variantes de ces stratégies. Les progrès récents comprennent les plans d'échantillonnage à marche aléatoire ciblée et l'échantillonnage adaptatif « en toile ». Ces plans conviennent particulièrement bien pour l'échantillonnage par réseau; par exemple pour obtenir un échantillon de personnes appartenant à une population humaine cachée en suivant les liens sociaux partant d'un groupe de personnes échantillonnées pour trouver d'autres membres de la population cachée à ajouter à l'échantillon. Chacun de ces plans peut également être transposé à des conditions spatiales pour produire de nouvelles stratégies d'échantillonnage adaptatif spatial souples, applicables à des populations réparties non uniformément. Les variantes de ces stratégies d'échantillonnage comprennent celles où les liens du réseau ou les liens spatiaux ont des poids inégaux et sont suivis avec des probabilités inégales.

    Date de diffusion : 2011-12-21

  • Enquêtes et programmes statistiques — Documentation : 12-001-X201100211608
    Description :

    Les plans de sondage et les estimateurs des enquêtes à base de sondage unique utilisés à l'heure actuelle par les organismes gouvernementaux américains ont été élaborés en réponse à des problèmes pratiques. Les programmes d'enquêtes-ménages fédéraux doivent faire face aujourd'hui à la diminution des taux de réponse et de la couverture des bases de sondage, à la hausse des coûts de collecte des données et à l'accroissement de la demande de statistiques pour des petits domaines. Les enquêtes à bases de sondage multiples, dans lesquelles des échantillons indépendants sont tirés de bases de sondage distinctes, peuvent être utilisées en vue de relever certains de ces défis. La combinaison d'une liste et d'une base de sondage aréolaire ou l'utilisation de deux bases de sondage pour échantillonner les ménages ayant une ligne de téléphone fixe et ceux ayant une ligne de téléphone mobile en sont des exemples. Nous passons en revue les estimateurs ponctuels et les ajustements de la pondération qui peuvent être utilisés pour analyser les données d'enquête à bases de sondage multiples au moyen de logiciels standard et nous résumons la construction des poids de rééchantillonnage pour l'estimation de la variance. Étant donné leur complexité croissante, les enquêtes à bases de sondage multiples obligent à résoudre des difficultés qui ne se posent pas dans le cas des enquêtes à base de sondage simple. Nous étudions le biais dû à l'erreur de classification dans les enquêtes à bases de sondage multiples et proposons une méthode pour corriger ce biais quand les probabilités d'erreur de classification sont connues. Enfin, nous discutons des travaux de recherche nécessaires en ce qui concerne les erreurs non dues à l'échantillonnage dans les enquêtes à bases de sondage multiples.

    Date de diffusion : 2011-12-21

  • Enquêtes et programmes statistiques — Documentation : 12-001-X201000211385
    Description :

    Dans cette note brève, nous montrons que l'échantillonnage aléatoire sans remise et l'échantillonnage de Bernoulli ont à peu près la même entropie quand la taille de la population est grande. Nous donnons un exemple empirique en guise d'illustration.

    Date de diffusion : 2010-12-21

  • Enquêtes et programmes statistiques — Documentation : 12-001-X201000111249
    Description :

    Dans le cas de nombreux plans de sondage, la probabilité de sélectionner un échantillon qui produira de mauvaises estimations pour des quantités connues n'est pas nulle. L'échantillonnage aléatoire stratifié permet de réduire l'ensemble de ces échantillons éventuels en fixant la taille de l'échantillon dans chaque strate. Cependant, l'obtention d'échantillons indésirables demeure possible après la stratification. L'échantillonnage réjectif permet d'éliminer les échantillons donnant de mauvais résultats en ne retenant un échantillon que si des fonctions spécifiées des estimations sont comprises entre des limites de tolérance par rapport aux valeurs connues. Les échantillons résultant sont souvent dits équilibrés sur la fonction des variables utilisées dans la méthode de rejet. Nous présentons des modifications de la méthode de rejet de Fuller (2009a) qui donnent plus de souplesse aux règles de rejet. Au moyen de simulations, nous comparons les propriétés des estimations obtenues en suivant une méthode d'échantillonnage réjectif, d'une part, et une procédure d'échantillonnage par la méthode du cube, d'autre part.

    Date de diffusion : 2010-06-29

  • Enquêtes et programmes statistiques — Documentation : 12-001-X200900211037
    Description :

    Les stratégies fondées sur la réponse aléatoire, qui ont été élaborées au départ à titre de méthodes statistiques destinées à réduire la non-réponse ainsi que la réponse mensongère, peuvent aussi être appliquées dans le domaine du contrôle de la divulgation statistique dans les fichiers de microdonnées à grande diffusion. Le présent article décrit une standardisation des méthodes de réponse aléatoire en vue d'estimer des proportions pour des attributs identificatoires ou sensibles. Les propriétés statistiques de l'estimateur standardisé sont établies dans le cas de l'échantillonnage probabiliste général. Afin d'analyser l'effet du choix des « paramètres de plan » implicites de la méthode sur la performance de l'estimateur, nous incluons dans l'étude des mesures de la protection de la vie privée. Nous obtenons ainsi des paramètres de plan qui optimisent la variance, sachant le niveau de protection de la vie privée. Pour cela, les variables doivent être classées dans diverses catégories de sensibilité. Un exemple fondé sur des données réelles illustre l'application de la méthode à une enquête sur la tricherie chez les étudiants.

    Date de diffusion : 2009-12-23

  • Enquêtes et programmes statistiques — Documentation : 12-001-X200900110880
    Description :

    Le présent article décrit un cadre pour l'estimation par calage sous les plans d'échantillonnage à deux phases. Les travaux présentés découlent de la poursuite du développement de logiciels généralisés d'estimation à Statistique Canada. Un objectif important de ce développement est d'offrir une grande gamme d'options en vue d'utiliser efficacement l'information auxiliaire dans différents plans d'échantillonnage. Cet objectif est reflété dans la méthodologie générale pour les plans d'échantillonnage à deux phases exposée dans le présent article.

    Nous considérons le plan d'échantillonnage à deux phases classique. Un échantillon de première phase est tiré à partir d'une population finie, puis un échantillon de deuxième phase est tiré en tant que sous échantillon du premier. La variable étudiée, dont le total de population inconnu doit être estimé, est observée uniquement pour les unités contenues dans l'échantillon de deuxième phase. Des plans d'échantillonnage arbitraires sont permis à chaque phase de l'échantillonnage. Divers types d'information auxiliaire sont identifiés pour le calcul des poids de calage à chaque phase. Les variables auxiliaires et les variables étudiées peuvent être continues ou catégoriques.

    L'article apporte une contribution à quatre domaines importants dans le contexte général du calage pour les plans d'échantillonnage à deux phases :1) nous dégageons trois grands types d'information auxiliaire pour les plans à deux phases et les utilisons dans l'estimation. L'information est intégrée dans les poids en deux étapes : un calage de première phase et un calage de deuxième phase. Nous discutons de la composition des vecteurs auxiliaires appropriés pour chaque étape et utilisons une méthode de linéarisation pour arriver aux résidus qui déterminent la variance asymptotique de l'estimateur par calage ;2) nous examinons l'effet de divers choix de poids de départ pour le calage. Les deux choix « naturels » produisent généralement des estimateurs légèrement différents. Cependant, sous certaines conditions, ces deux estimateurs ont la même variance asymptotique ;3) nous réexaminons l'estimation de la variance pour l'estimateur par calage à deux phases. Nous proposons une nouvelle méthode qui peut représenter une amélioration considérable par rapport à la technique habituelle de conditionnement sur l'échantillon de première phase. Une simulation décrite à la section 10 sert à valider les avantages de cette nouvelle méthode ;4) nous comparons l'approche par calage à la méthode de régression assistée par modèle classique qui comporte l'ajustement d'un modèle de régression linéaire à deux niveaux. Nous montrons que l'estimateur assisté par modèle a des propriétés semblables à celles d'un estimateur par calage à deux phases.

    Date de diffusion : 2009-06-22

  • Enquêtes et programmes statistiques — Documentation : 12-001-X200800210760
    Description :

    Pour concevoir un échantillon aléatoire simple stratifié sans remise à partir d'une population finie, il faut résoudre deux grandes questions : définir une règle de partition de la population en strates et répartir les unités d'échantillonnage entre les strates sélectionnées. Dans le présent article, nous examinons une stratégie arborescente en vue d'aborder conjointement ces deux questions quand l'enquête est polyvalente et que de l'information multivariée, quantitative ou qualitative, est disponible. Nous formons les strates à l'aide d'un algorithme divisif hiérarchique qui sélectionne des partitions de plus en plus fines en minimisant, à chaque étape, la répartition d'échantillon requise pour atteindre les niveaux de précision établis pour chaque variable étudiée. De cette façon, nous pouvons satisfaire un grand nombre de contraintes sans augmenter fortement la taille globale d'échantillon et sans écarter certaines variables sélectionnées pour la stratification ni diminuer le nombre de leurs intervalles de classe. En outre, l'algorithme a tendance à ne pas définir de strate vide ou presque vide, ce qui évite de devoir regrouper certaines strates. Nous avons appliqué la méthode au remaniement de l'Enquête sur la structure des exploitations agricoles en Italie. Les résultats indiquent que le gain d'efficacité réalisé en utilisant notre stratégie n'est pas trivial. Pour une taille d'échantillon donnée, cette méthode permet d'obtenir la précision requise en exploitant un nombre de strates qui est habituellement égal à une fraction très faible du nombre de strates disponibles quand on combine toutes les classes possibles provenant de n'importe quelle covariable.

    Date de diffusion : 2008-12-23

  • Enquêtes et programmes statistiques — Documentation : 12-001-X200800210763
    Description :

    Le présent article décrit une stratégie d'échantillonnage utile pour obtenir une taille d'échantillon planifiée pour des domaines appartenant à différentes partitions de la population et pour garantir que les erreurs d'échantillonnage des estimations de domaine soient inférieures à un seuil donné. La stratégie d'échantillonnage, qui englobe le cas multidomaine multivarié, est avantageuse quand la taille globale d'échantillon est bornée et que, par conséquent, la solution standard consistant à utiliser un échantillon stratifié dont les strates sont obtenues par le recoupement des variables qui définissent les diverses partitions n'est pas faisable, puisque le nombre de strates est plus grand que la taille globale d'échantillon. La stratégie d'échantillonnage proposée est fondée sur l'utilisation d'une méthode d'échantillonnage équilibré et sur une estimation de type GREG. Le principal avantage de la solution est la faisabilité des calculs, laquelle permet de mettre en oeuvre facilement une stratégie globale d'estimation pour petits domaines qui tient compte simultanément du plan d'échantillonnage et de l'estimateur, et qui améliore l'efficacité des estimateurs directs de domaine. Les propriétés empiriques de la stratégie d'échantillonnage étudiée sont illustrées au moyen d'une simulation portant sur des données de population réelles et divers estimateurs de domaine.

    Date de diffusion : 2008-12-23
Date de modification :