Recherche par mot-clé

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Année de publication

1 facets displayed. 1 facets selected.

Enquête ou programme statistique

29 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (69)

Tout (69) (0 à 10 de 69 résultats)

  • Articles et rapports : 12-001-X202200200001
    Description :

    Des arguments conceptuels et des exemples sont présentés qui suggèrent que l’approche d’inférence bayésienne pour les enquêtes permet de répondre aux défis nombreux et variés de l’analyse d’une enquête. Les modèles bayésiens qui intègrent des caractéristiques du plan de sondage complexe peuvent donner lieu à des inférences pertinentes pour l’ensemble de données observé, tout en ayant de bonnes propriétés d’échantillonnage répété. Les exemples portent essentiellement sur le rôle des variables auxiliaires et des poids d’échantillonnage, et les méthodes utilisées pour gérer lanon-réponse. Le présent article propose 10 raisons principales de favoriser l’approche d’inférence bayésienne pour les enquêtes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200002
    Description :

    Nous offrons un examen critique et quelques discussions approfondies sur des questions théoriques et pratiques à l’aide d’une analyse des échantillons non probabilistes. Nous tentons de présenter des cadres inférentiels rigoureux et des procédures statistiques valides dans le cadre d’hypothèses couramment utilisées et d’aborder les questions relatives à la justification et à la vérification d’hypothèses sur des applications pratiques. Certains progrès méthodologiques actuels sont présentés et nous mentionnons des problèmes qui nécessitent un examen plus approfondi. Alors que l’article porte sur des échantillons non probabilistes, le rôle essentiel des échantillons d’enquête probabilistes comportant des renseignements riches et pertinents sur des variables auxiliaires est mis en évidence.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200003
    Description :

    Les enquêtes non probabilistes jouent un rôle croissant dans la recherche par enquête. L’étude de Wu rassemble de façon compétente les nombreux outils disponibles lorsqu’on suppose que la non-réponse est conditionnellement indépendante de la variable étudiée. Dans le présent exposé, j’étudie la façon d’intégrer les idées de Wu dans un cadre plus large qui englobe le cas dans lequel la non-réponse dépend de la variable étudiée, un cas qui est particulièrement dangereux dans les sondages non probabilistes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200004
    Description :

    Cet exposé vise à approfondir l’examen de Wu sur l’inférence à partir d’échantillons non probabilistes, ainsi qu’à mettre en évidence les aspects qui constituent probablement d’autres pistes de recherche utiles. Elle se termine par un appel en faveur d’un registre organisé d’enquêtes probabilistes de grande qualité qui visera à fournir des renseignements utiles à l’ajustement d’enquêtes non probabilistes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200005
    Description :

    Des hypothèses solides sont nécessaires pour faire des inférences au sujet d’une population finie à partir d’un échantillon non probabiliste. Les statistiques d’un échantillon non probabiliste devraient être accompagnées de preuves que les hypothèses sont respectées et que les estimations ponctuelles et les intervalles de confiance sont propres à l’utilisation. Je décris certains diagnostics qui peuvent être utilisés pour évaluer les hypothèses du modèle, et je discute des questions à prendre en considération au moment de décider s’il convient d’utiliser les données d’un échantillon non probabiliste.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200006
    Description :

    Il n’est pas possible de tirer parti de la puissante probabilité du plan pour établir l’inférence fondée sur la randomisation à partir d’échantillons non probabilistes. Cela nous incite à exploiter une probabilité divine naturelle qui accompagne toute population finie. Dans cette perspective, un des paramètres principaux est la corrélation due à un défaut des données (cdd), qui est la corrélation de la population finie sans modèle entre l’indicateur d’inclusion de l’échantillon de la personne et la caractéristique de la personne échantillonnée. Un mécanisme de génération de données équivaut à un échantillonnage probabiliste, en ce qui concerne l’effet de plan, si et seulement si la cdd correspondante est de l’ordre (stochastique) N-1/2, où N est la taille de la population (Meng, 2018). Par conséquent, les méthodes d’estimation linéaire valides existantes pour les échantillons non probabilistes peuvent être converties en plusieurs stratégies de miniaturisation de la cdd jusqu’à l’ordre N-1/2. Les méthodes quasi fondées sur le plan permettent d’accomplir cette tâche en réduisant la variabilité entre les N propensions d’inclusion au moyen d’une pondération. L’approche fondée sur un modèle de superpopulation permet d’atteindre le même objectif par la réduction de la variabilité des caractéristiques des N personnes en les remplaçant par leurs résidus issus d’un modèle de régression. Les estimateurs doublement robustes doivent la propriété dont ils portent le nom au fait qu’une corrélation est nulle chaque fois qu’une des variables corrélées est constante, quelle qu’elle soit. Comprendre les points communs de ces méthodes au moyen de la cdd nous aide à voir clairement la possibilité d’une « robustesse plus que double », c’est-à-dire une estimation valide qui ne dépend pas de la pleine validité du modèle de régression ni de la propension d’inclusion estimée, qui ne sont garanties ni l’une ni l’autre parce que les deux reposent sur la probabilité du procédé. Les renseignements générés par la cdd incitent également à un sous-échantillonnage de contrebalancement, une stratégie visant à créer une miniature de la population à partir d’un échantillon non probabiliste, et comportant un compromis de qualité et de quantité favorable parce que les erreurs quadratiques moyennes sont beaucoup plus sensibles à la cdd qu’à la taille de l’échantillon, en particulier pour les populations de grande taille.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200007
    Description :

    L’inférence statistique avec des échantillons d’enquête non probabilistes est un problème complexe bien connu en statistique. Dans la présente analyse, nous proposons deux nouvelles méthodes non paramétriques d’estimation des scores de propension pour pondérer les échantillons non probabilistes, à savoir la projection d’information et le calage uniforme dans un espace de Hilbert à noyau reproduisant.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200008
    Description :

    La présente réponse contient des remarques supplémentaires sur certaines questions soulevées par les participants à la discussion.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200009
    Description :

    L’imputation multiple est une approche populaire pour traiter les données manquantes découlant de la non-réponse dans les enquêtes-échantillons. L’imputation multiple au moyen d’équations en séries (MICE) est l’un des algorithmes d’imputation multiple les plus utilisés pour les données multivariées, mais son fondement théorique est insuffisant et elle exige beaucoup de calculs. Récemment, des méthodes d’imputation des données manquantes fondées sur des modèles d’apprentissage profond ont été élaborées, ce qui a donné des résultats encourageants dans de petites études. Cependant, peu de recherches ont été menées sur l’évaluation de leur rendement dans des contextes réalistes par rapport à la MICE, en particulier dans le cadre de grandes enquêtes. Nous menons de vastes études de simulation fondées sur un sous-échantillon de l’American Community Survey afin de comparer les propriétés d’échantillonnage répété de quatre méthodes d’apprentissage automatique fondées sur l’imputation multiple : MICE avec arbres de classification; MICE avec forêts aléatoires; réseaux antagonistes génératifs pour l’imputation; et imputation multiple à l’aide d’autoencodeurs débruiteurs. Nous constatons que les méthodes d’imputation fondées sur des modèles d’apprentissage profond sont plus efficaces que la MICE en ce qui a trait au temps de calcul. Cependant, étant donné le choix par défaut des hyperparamètres dans les progiciels communs, la MICE avec arbres de classification dépasse constamment, souvent de loin, les méthodes d’imputation fondées sur l’apprentissage profond quant au biais, à l’erreur quadratique moyenne et à la couverture dans une gamme de paramètres réalistes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200010
    Description :

    Des modèles de séries chronologiques multiniveaux sont appliqués pour estimer les tendances de séries chronologiques de la couverture des soins prénataux à plusieurs niveaux administratifs du Bangladesh, d’après les cycles répétés de la Bangladesh Demographic and Health Survey (BDHS, Enquête démographique et sur la santé du Bangladesh) pendant la période allant de 1994 à 2014. Les modèles de séries chronologiques multiniveaux sont exprimés dans un cadre bayésien hiérarchique et ajustés au moyen de simulations Monte Carlo par chaînes de Markov. Les modèles tiennent compte des intervalles variables de trois ou quatre ans entre les cycles de la BDHS et fournissent aussi des prédictions pour les années intermédiaires. Il est proposé d’appliquer les modèles transversaux de Fay-Herriot aux années d’enquête séparément au niveau des districts, soit l’échelle régionale la plus détaillée. Les séries chronologiques de ces prédictions pour petits domaines au niveau des districts et leurs matrices de variance-covariance sont utilisées comme séries de données d’entrée pour les modèles de séries chronologiques multiniveaux. Dans ces modèles, on examine les corrélations spatiales entre les districts, la pente et l’ordonnée à l’origine aléatoires au niveau des districts, ainsi que les différents modèles de tendance au niveau des districts et aux niveaux régionaux plus élevés pour l’emprunt d’information dans le temps et l’espace. Les estimations des tendances au niveau des districts sont obtenues directement à partir des résultats des modèles, tandis que les estimations des tendances à des échelons régionaux et nationaux plus élevés sont obtenues par agrégation des prédictions au niveau des districts, ce qui donne un ensemble cohérent d’estimations des tendances sur le plan numérique.

    Date de diffusion : 2022-12-15
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (67)

Analyses (67) (0 à 10 de 67 résultats)

  • Articles et rapports : 12-001-X202200200001
    Description :

    Des arguments conceptuels et des exemples sont présentés qui suggèrent que l’approche d’inférence bayésienne pour les enquêtes permet de répondre aux défis nombreux et variés de l’analyse d’une enquête. Les modèles bayésiens qui intègrent des caractéristiques du plan de sondage complexe peuvent donner lieu à des inférences pertinentes pour l’ensemble de données observé, tout en ayant de bonnes propriétés d’échantillonnage répété. Les exemples portent essentiellement sur le rôle des variables auxiliaires et des poids d’échantillonnage, et les méthodes utilisées pour gérer lanon-réponse. Le présent article propose 10 raisons principales de favoriser l’approche d’inférence bayésienne pour les enquêtes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200002
    Description :

    Nous offrons un examen critique et quelques discussions approfondies sur des questions théoriques et pratiques à l’aide d’une analyse des échantillons non probabilistes. Nous tentons de présenter des cadres inférentiels rigoureux et des procédures statistiques valides dans le cadre d’hypothèses couramment utilisées et d’aborder les questions relatives à la justification et à la vérification d’hypothèses sur des applications pratiques. Certains progrès méthodologiques actuels sont présentés et nous mentionnons des problèmes qui nécessitent un examen plus approfondi. Alors que l’article porte sur des échantillons non probabilistes, le rôle essentiel des échantillons d’enquête probabilistes comportant des renseignements riches et pertinents sur des variables auxiliaires est mis en évidence.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200003
    Description :

    Les enquêtes non probabilistes jouent un rôle croissant dans la recherche par enquête. L’étude de Wu rassemble de façon compétente les nombreux outils disponibles lorsqu’on suppose que la non-réponse est conditionnellement indépendante de la variable étudiée. Dans le présent exposé, j’étudie la façon d’intégrer les idées de Wu dans un cadre plus large qui englobe le cas dans lequel la non-réponse dépend de la variable étudiée, un cas qui est particulièrement dangereux dans les sondages non probabilistes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200004
    Description :

    Cet exposé vise à approfondir l’examen de Wu sur l’inférence à partir d’échantillons non probabilistes, ainsi qu’à mettre en évidence les aspects qui constituent probablement d’autres pistes de recherche utiles. Elle se termine par un appel en faveur d’un registre organisé d’enquêtes probabilistes de grande qualité qui visera à fournir des renseignements utiles à l’ajustement d’enquêtes non probabilistes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200005
    Description :

    Des hypothèses solides sont nécessaires pour faire des inférences au sujet d’une population finie à partir d’un échantillon non probabiliste. Les statistiques d’un échantillon non probabiliste devraient être accompagnées de preuves que les hypothèses sont respectées et que les estimations ponctuelles et les intervalles de confiance sont propres à l’utilisation. Je décris certains diagnostics qui peuvent être utilisés pour évaluer les hypothèses du modèle, et je discute des questions à prendre en considération au moment de décider s’il convient d’utiliser les données d’un échantillon non probabiliste.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200006
    Description :

    Il n’est pas possible de tirer parti de la puissante probabilité du plan pour établir l’inférence fondée sur la randomisation à partir d’échantillons non probabilistes. Cela nous incite à exploiter une probabilité divine naturelle qui accompagne toute population finie. Dans cette perspective, un des paramètres principaux est la corrélation due à un défaut des données (cdd), qui est la corrélation de la population finie sans modèle entre l’indicateur d’inclusion de l’échantillon de la personne et la caractéristique de la personne échantillonnée. Un mécanisme de génération de données équivaut à un échantillonnage probabiliste, en ce qui concerne l’effet de plan, si et seulement si la cdd correspondante est de l’ordre (stochastique) N-1/2, où N est la taille de la population (Meng, 2018). Par conséquent, les méthodes d’estimation linéaire valides existantes pour les échantillons non probabilistes peuvent être converties en plusieurs stratégies de miniaturisation de la cdd jusqu’à l’ordre N-1/2. Les méthodes quasi fondées sur le plan permettent d’accomplir cette tâche en réduisant la variabilité entre les N propensions d’inclusion au moyen d’une pondération. L’approche fondée sur un modèle de superpopulation permet d’atteindre le même objectif par la réduction de la variabilité des caractéristiques des N personnes en les remplaçant par leurs résidus issus d’un modèle de régression. Les estimateurs doublement robustes doivent la propriété dont ils portent le nom au fait qu’une corrélation est nulle chaque fois qu’une des variables corrélées est constante, quelle qu’elle soit. Comprendre les points communs de ces méthodes au moyen de la cdd nous aide à voir clairement la possibilité d’une « robustesse plus que double », c’est-à-dire une estimation valide qui ne dépend pas de la pleine validité du modèle de régression ni de la propension d’inclusion estimée, qui ne sont garanties ni l’une ni l’autre parce que les deux reposent sur la probabilité du procédé. Les renseignements générés par la cdd incitent également à un sous-échantillonnage de contrebalancement, une stratégie visant à créer une miniature de la population à partir d’un échantillon non probabiliste, et comportant un compromis de qualité et de quantité favorable parce que les erreurs quadratiques moyennes sont beaucoup plus sensibles à la cdd qu’à la taille de l’échantillon, en particulier pour les populations de grande taille.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200007
    Description :

    L’inférence statistique avec des échantillons d’enquête non probabilistes est un problème complexe bien connu en statistique. Dans la présente analyse, nous proposons deux nouvelles méthodes non paramétriques d’estimation des scores de propension pour pondérer les échantillons non probabilistes, à savoir la projection d’information et le calage uniforme dans un espace de Hilbert à noyau reproduisant.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200008
    Description :

    La présente réponse contient des remarques supplémentaires sur certaines questions soulevées par les participants à la discussion.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200009
    Description :

    L’imputation multiple est une approche populaire pour traiter les données manquantes découlant de la non-réponse dans les enquêtes-échantillons. L’imputation multiple au moyen d’équations en séries (MICE) est l’un des algorithmes d’imputation multiple les plus utilisés pour les données multivariées, mais son fondement théorique est insuffisant et elle exige beaucoup de calculs. Récemment, des méthodes d’imputation des données manquantes fondées sur des modèles d’apprentissage profond ont été élaborées, ce qui a donné des résultats encourageants dans de petites études. Cependant, peu de recherches ont été menées sur l’évaluation de leur rendement dans des contextes réalistes par rapport à la MICE, en particulier dans le cadre de grandes enquêtes. Nous menons de vastes études de simulation fondées sur un sous-échantillon de l’American Community Survey afin de comparer les propriétés d’échantillonnage répété de quatre méthodes d’apprentissage automatique fondées sur l’imputation multiple : MICE avec arbres de classification; MICE avec forêts aléatoires; réseaux antagonistes génératifs pour l’imputation; et imputation multiple à l’aide d’autoencodeurs débruiteurs. Nous constatons que les méthodes d’imputation fondées sur des modèles d’apprentissage profond sont plus efficaces que la MICE en ce qui a trait au temps de calcul. Cependant, étant donné le choix par défaut des hyperparamètres dans les progiciels communs, la MICE avec arbres de classification dépasse constamment, souvent de loin, les méthodes d’imputation fondées sur l’apprentissage profond quant au biais, à l’erreur quadratique moyenne et à la couverture dans une gamme de paramètres réalistes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200010
    Description :

    Des modèles de séries chronologiques multiniveaux sont appliqués pour estimer les tendances de séries chronologiques de la couverture des soins prénataux à plusieurs niveaux administratifs du Bangladesh, d’après les cycles répétés de la Bangladesh Demographic and Health Survey (BDHS, Enquête démographique et sur la santé du Bangladesh) pendant la période allant de 1994 à 2014. Les modèles de séries chronologiques multiniveaux sont exprimés dans un cadre bayésien hiérarchique et ajustés au moyen de simulations Monte Carlo par chaînes de Markov. Les modèles tiennent compte des intervalles variables de trois ou quatre ans entre les cycles de la BDHS et fournissent aussi des prédictions pour les années intermédiaires. Il est proposé d’appliquer les modèles transversaux de Fay-Herriot aux années d’enquête séparément au niveau des districts, soit l’échelle régionale la plus détaillée. Les séries chronologiques de ces prédictions pour petits domaines au niveau des districts et leurs matrices de variance-covariance sont utilisées comme séries de données d’entrée pour les modèles de séries chronologiques multiniveaux. Dans ces modèles, on examine les corrélations spatiales entre les districts, la pente et l’ordonnée à l’origine aléatoires au niveau des districts, ainsi que les différents modèles de tendance au niveau des districts et aux niveaux régionaux plus élevés pour l’emprunt d’information dans le temps et l’espace. Les estimations des tendances au niveau des districts sont obtenues directement à partir des résultats des modèles, tandis que les estimations des tendances à des échelons régionaux et nationaux plus élevés sont obtenues par agrégation des prédictions au niveau des districts, ce qui donne un ensemble cohérent d’estimations des tendances sur le plan numérique.

    Date de diffusion : 2022-12-15
Références (2)

Références (2) ((2 résultats))

  • Enquêtes et programmes statistiques — Documentation : 32-26-0002
    Description :

    Ce guide de référence peut être utile à la fois pour les nouveaux utilisateurs et pour les utilisateurs expérimentés qui désirent se familiariser avec le Recensement de l'agriculture et trouver des renseignements détaillés sur celui-ci.

    Le guide fournit un aperçu des activités de communication, de détermination du contenu, de collecte, de traitement, d'évaluation de la qualité des données et de diffusion du Recensement de l'agriculture, en plus de fournir une description sommaire des principaux changements apportés au recensement et d'autres informations utiles.

    Date de diffusion : 2022-04-14

  • Fichiers et documentation sur la géographie : 12-572-X
    Description :

    La Classification géographique type (CGT) fournit une structure de classification systématique pour toutes les régions géographiques au Canada. La CGT est le système de classification officielle utilisé pour le Recensement de la population et d’autres enquêtes de Statistique Canada.

    La classification est divisée en deux volumes, soit le volume I, La classification et le volume II, Cartes de référence.

    Le volume II renferme des cartes de référence indiquant les limites, les noms, les codes et l'emplacement des régions géographiques figurant dans la classification. Les cartes de référence montrent les subdivisions de recensement, les divisions de recensement, les régions métropolitaines de recensement, les agglomérations de recensement, les zones d'influence métropolitaine de recensement et les régions économiques. Les définitions de ces termes se trouvent dans le Volume I, La classification. Le volume I renferme une description de la classification et des régions géographiques normalisées connexes et comprend les noms de localité.

    Les cartes du volume II peuvent être téléchargées en format PDF à partir de notre site Web.

    Date de diffusion : 2022-02-09
Date de modification :