Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Année de publication

1 facets displayed. 1 facets selected.

Enquête ou programme statistique

28 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (67)

Tout (67) (0 à 10 de 67 résultats)

  • Articles et rapports : 12-001-X202200200001
    Description :

    Des arguments conceptuels et des exemples sont présentés qui suggèrent que l’approche d’inférence bayésienne pour les enquêtes permet de répondre aux défis nombreux et variés de l’analyse d’une enquête. Les modèles bayésiens qui intègrent des caractéristiques du plan de sondage complexe peuvent donner lieu à des inférences pertinentes pour l’ensemble de données observé, tout en ayant de bonnes propriétés d’échantillonnage répété. Les exemples portent essentiellement sur le rôle des variables auxiliaires et des poids d’échantillonnage, et les méthodes utilisées pour gérer lanon-réponse. Le présent article propose 10 raisons principales de favoriser l’approche d’inférence bayésienne pour les enquêtes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200002
    Description :

    Nous offrons un examen critique et quelques discussions approfondies sur des questions théoriques et pratiques à l’aide d’une analyse des échantillons non probabilistes. Nous tentons de présenter des cadres inférentiels rigoureux et des procédures statistiques valides dans le cadre d’hypothèses couramment utilisées et d’aborder les questions relatives à la justification et à la vérification d’hypothèses sur des applications pratiques. Certains progrès méthodologiques actuels sont présentés et nous mentionnons des problèmes qui nécessitent un examen plus approfondi. Alors que l’article porte sur des échantillons non probabilistes, le rôle essentiel des échantillons d’enquête probabilistes comportant des renseignements riches et pertinents sur des variables auxiliaires est mis en évidence.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200003
    Description :

    Les enquêtes non probabilistes jouent un rôle croissant dans la recherche par enquête. L’étude de Wu rassemble de façon compétente les nombreux outils disponibles lorsqu’on suppose que la non-réponse est conditionnellement indépendante de la variable étudiée. Dans le présent exposé, j’étudie la façon d’intégrer les idées de Wu dans un cadre plus large qui englobe le cas dans lequel la non-réponse dépend de la variable étudiée, un cas qui est particulièrement dangereux dans les sondages non probabilistes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200004
    Description :

    Cet exposé vise à approfondir l’examen de Wu sur l’inférence à partir d’échantillons non probabilistes, ainsi qu’à mettre en évidence les aspects qui constituent probablement d’autres pistes de recherche utiles. Elle se termine par un appel en faveur d’un registre organisé d’enquêtes probabilistes de grande qualité qui visera à fournir des renseignements utiles à l’ajustement d’enquêtes non probabilistes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200005
    Description :

    Des hypothèses solides sont nécessaires pour faire des inférences au sujet d’une population finie à partir d’un échantillon non probabiliste. Les statistiques d’un échantillon non probabiliste devraient être accompagnées de preuves que les hypothèses sont respectées et que les estimations ponctuelles et les intervalles de confiance sont propres à l’utilisation. Je décris certains diagnostics qui peuvent être utilisés pour évaluer les hypothèses du modèle, et je discute des questions à prendre en considération au moment de décider s’il convient d’utiliser les données d’un échantillon non probabiliste.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200006
    Description :

    Il n’est pas possible de tirer parti de la puissante probabilité du plan pour établir l’inférence fondée sur la randomisation à partir d’échantillons non probabilistes. Cela nous incite à exploiter une probabilité divine naturelle qui accompagne toute population finie. Dans cette perspective, un des paramètres principaux est la corrélation due à un défaut des données (cdd), qui est la corrélation de la population finie sans modèle entre l’indicateur d’inclusion de l’échantillon de la personne et la caractéristique de la personne échantillonnée. Un mécanisme de génération de données équivaut à un échantillonnage probabiliste, en ce qui concerne l’effet de plan, si et seulement si la cdd correspondante est de l’ordre (stochastique) N-1/2, où N est la taille de la population (Meng, 2018). Par conséquent, les méthodes d’estimation linéaire valides existantes pour les échantillons non probabilistes peuvent être converties en plusieurs stratégies de miniaturisation de la cdd jusqu’à l’ordre N-1/2. Les méthodes quasi fondées sur le plan permettent d’accomplir cette tâche en réduisant la variabilité entre les N propensions d’inclusion au moyen d’une pondération. L’approche fondée sur un modèle de superpopulation permet d’atteindre le même objectif par la réduction de la variabilité des caractéristiques des N personnes en les remplaçant par leurs résidus issus d’un modèle de régression. Les estimateurs doublement robustes doivent la propriété dont ils portent le nom au fait qu’une corrélation est nulle chaque fois qu’une des variables corrélées est constante, quelle qu’elle soit. Comprendre les points communs de ces méthodes au moyen de la cdd nous aide à voir clairement la possibilité d’une « robustesse plus que double », c’est-à-dire une estimation valide qui ne dépend pas de la pleine validité du modèle de régression ni de la propension d’inclusion estimée, qui ne sont garanties ni l’une ni l’autre parce que les deux reposent sur la probabilité du procédé. Les renseignements générés par la cdd incitent également à un sous-échantillonnage de contrebalancement, une stratégie visant à créer une miniature de la population à partir d’un échantillon non probabiliste, et comportant un compromis de qualité et de quantité favorable parce que les erreurs quadratiques moyennes sont beaucoup plus sensibles à la cdd qu’à la taille de l’échantillon, en particulier pour les populations de grande taille.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200007
    Description :

    L’inférence statistique avec des échantillons d’enquête non probabilistes est un problème complexe bien connu en statistique. Dans la présente analyse, nous proposons deux nouvelles méthodes non paramétriques d’estimation des scores de propension pour pondérer les échantillons non probabilistes, à savoir la projection d’information et le calage uniforme dans un espace de Hilbert à noyau reproduisant.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200008
    Description :

    La présente réponse contient des remarques supplémentaires sur certaines questions soulevées par les participants à la discussion.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200009
    Description :

    L’imputation multiple est une approche populaire pour traiter les données manquantes découlant de la non-réponse dans les enquêtes-échantillons. L’imputation multiple au moyen d’équations en séries (MICE) est l’un des algorithmes d’imputation multiple les plus utilisés pour les données multivariées, mais son fondement théorique est insuffisant et elle exige beaucoup de calculs. Récemment, des méthodes d’imputation des données manquantes fondées sur des modèles d’apprentissage profond ont été élaborées, ce qui a donné des résultats encourageants dans de petites études. Cependant, peu de recherches ont été menées sur l’évaluation de leur rendement dans des contextes réalistes par rapport à la MICE, en particulier dans le cadre de grandes enquêtes. Nous menons de vastes études de simulation fondées sur un sous-échantillon de l’American Community Survey afin de comparer les propriétés d’échantillonnage répété de quatre méthodes d’apprentissage automatique fondées sur l’imputation multiple : MICE avec arbres de classification; MICE avec forêts aléatoires; réseaux antagonistes génératifs pour l’imputation; et imputation multiple à l’aide d’autoencodeurs débruiteurs. Nous constatons que les méthodes d’imputation fondées sur des modèles d’apprentissage profond sont plus efficaces que la MICE en ce qui a trait au temps de calcul. Cependant, étant donné le choix par défaut des hyperparamètres dans les progiciels communs, la MICE avec arbres de classification dépasse constamment, souvent de loin, les méthodes d’imputation fondées sur l’apprentissage profond quant au biais, à l’erreur quadratique moyenne et à la couverture dans une gamme de paramètres réalistes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200010
    Description :

    Des modèles de séries chronologiques multiniveaux sont appliqués pour estimer les tendances de séries chronologiques de la couverture des soins prénataux à plusieurs niveaux administratifs du Bangladesh, d’après les cycles répétés de la Bangladesh Demographic and Health Survey (BDHS, Enquête démographique et sur la santé du Bangladesh) pendant la période allant de 1994 à 2014. Les modèles de séries chronologiques multiniveaux sont exprimés dans un cadre bayésien hiérarchique et ajustés au moyen de simulations Monte Carlo par chaînes de Markov. Les modèles tiennent compte des intervalles variables de trois ou quatre ans entre les cycles de la BDHS et fournissent aussi des prédictions pour les années intermédiaires. Il est proposé d’appliquer les modèles transversaux de Fay-Herriot aux années d’enquête séparément au niveau des districts, soit l’échelle régionale la plus détaillée. Les séries chronologiques de ces prédictions pour petits domaines au niveau des districts et leurs matrices de variance-covariance sont utilisées comme séries de données d’entrée pour les modèles de séries chronologiques multiniveaux. Dans ces modèles, on examine les corrélations spatiales entre les districts, la pente et l’ordonnée à l’origine aléatoires au niveau des districts, ainsi que les différents modèles de tendance au niveau des districts et aux niveaux régionaux plus élevés pour l’emprunt d’information dans le temps et l’espace. Les estimations des tendances au niveau des districts sont obtenues directement à partir des résultats des modèles, tandis que les estimations des tendances à des échelons régionaux et nationaux plus élevés sont obtenues par agrégation des prédictions au niveau des districts, ce qui donne un ensemble cohérent d’estimations des tendances sur le plan numérique.

    Date de diffusion : 2022-12-15
Stats en bref (14)

Stats en bref (14) (0 à 10 de 14 résultats)

  • Stats en bref : 89-20-00062022004
    Description :

    L’acquisition l’exploration, l’analyse et l’interprétation des données sont des étapes essentielles du processus permettant de produire des renseignements qui sont utiles pour la société, l’économie et l’environnement. Dans cette vidéo, nous discuterons de l’importance de tenir compte de l’éthique des données tout au long du processus de production de renseignements statistiques.

    Comme préalable à cette vidéo, assurez-vous d’avoir regardé la vidéo intitulée « L’éthique des données : Une introduction », qui se trouve également dans le catalogue d’apprentissage de l’Initiative de formation en littératie des données de Statistique Canada.

    Date de diffusion : 2022-10-17

  • Stats en bref : 89-20-00062022005
    Description :

    Dans cette vidéo, vous obtiendrez les réponses aux questions suivantes : Quels sont les différents types d’erreurs? Quels sont les types d’erreurs qui entraînent un biais statistique? À quelle étape du parcours des données est-il possible que des erreurs entraînant des biais statistiques puissent survenir?

    Date de diffusion : 2022-10-17

  • Stats en bref : 89-20-00062022001
    Description :

    La collecte, l’exploration, l’analyse et l’interprétation des données sont des étapes essentielles de la production de renseignements qui profitent à la société, à l’économie et à l’environnement. Pour mener à bien ces processus, l'éthique des données doivent être assumées afin de garantir une utilisation appropriée des données.

    Date de diffusion : 2022-05-24

  • Stats en bref : 89-20-00062022002
    Description :

    Cette vidéo expliquera ce que signifie être FAIR en ce qui concerne les données et les métadonnées, et comment chaque pilier de FAIR sert à guider les utilisateurs et les producteurs dans le cheminement des données, afin de leur permettre d’obtenir une valeur maximale à long terme.

    Date de diffusion : 2022-05-24

  • Stats en bref : 89-20-00062022003
    Description :

    À la fin de cette vidéo, vous comprendrez ce que sont les intervalles de confiance, pourquoi nous les utilisons et quels facteurs ont un impact sur eux.

    Date de diffusion : 2022-05-24

  • Stats en bref : 11-629-X2022001
    Description :

    Cette vidéo en langue des signes québécoise se veut une introduction à l’Enquête canadienne sur l’incapacité. Elle présente une brève description des avantages de participer à l’enquête, de ce que la participation exige et de la façon dont les répondants ont été sélectionnés pour y participer. Elle fournit également des renseignements sur la protection des renseignements personnels et sur la confidentialité.

    Date de diffusion : 2022-05-11

  • Stats en bref : 89-20-00082021001
    Description : Cette vidéo fait partie de la série de soutien au contrôle de confidentialité et présente des exemples d’utilisation de SAS pour réaliser des tests de dominance et d'homogénéité du recensement.
    Date de diffusion : 2022-04-29

  • Stats en bref : 89-20-00082021002
    Description : Cette vidéo fait partie de la série de soutien au contrôle de confidentialité et présente des exemples d’utilisation de SAS pour générer des sorties de proportions pour les chercheurs travaillant avec des données confidentielles.
    Date de diffusion : 2022-04-27

  • Stats en bref : 89-20-00082021003
    Description : Cette vidéo fait partie de la série de soutien au contrôle de confidentialité et présente des exemples d’utilisation de Stata pour générer des sorties de proportions pour les chercheurs travaillant avec des données confidentielles.
    Date de diffusion : 2022-04-27

  • Stats en bref : 89-20-00082021004
    Description : Cette vidéo fait partie de la série de soutien au contrôle de confidentialité et présente des exemples d’utilisation de Stata pour réaliser des tests de dominance et d'homogénéité du recensement.
    Date de diffusion : 2022-04-27
Articles et rapports (53)

Articles et rapports (53) (0 à 10 de 53 résultats)

  • Articles et rapports : 12-001-X202200200001
    Description :

    Des arguments conceptuels et des exemples sont présentés qui suggèrent que l’approche d’inférence bayésienne pour les enquêtes permet de répondre aux défis nombreux et variés de l’analyse d’une enquête. Les modèles bayésiens qui intègrent des caractéristiques du plan de sondage complexe peuvent donner lieu à des inférences pertinentes pour l’ensemble de données observé, tout en ayant de bonnes propriétés d’échantillonnage répété. Les exemples portent essentiellement sur le rôle des variables auxiliaires et des poids d’échantillonnage, et les méthodes utilisées pour gérer lanon-réponse. Le présent article propose 10 raisons principales de favoriser l’approche d’inférence bayésienne pour les enquêtes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200002
    Description :

    Nous offrons un examen critique et quelques discussions approfondies sur des questions théoriques et pratiques à l’aide d’une analyse des échantillons non probabilistes. Nous tentons de présenter des cadres inférentiels rigoureux et des procédures statistiques valides dans le cadre d’hypothèses couramment utilisées et d’aborder les questions relatives à la justification et à la vérification d’hypothèses sur des applications pratiques. Certains progrès méthodologiques actuels sont présentés et nous mentionnons des problèmes qui nécessitent un examen plus approfondi. Alors que l’article porte sur des échantillons non probabilistes, le rôle essentiel des échantillons d’enquête probabilistes comportant des renseignements riches et pertinents sur des variables auxiliaires est mis en évidence.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200003
    Description :

    Les enquêtes non probabilistes jouent un rôle croissant dans la recherche par enquête. L’étude de Wu rassemble de façon compétente les nombreux outils disponibles lorsqu’on suppose que la non-réponse est conditionnellement indépendante de la variable étudiée. Dans le présent exposé, j’étudie la façon d’intégrer les idées de Wu dans un cadre plus large qui englobe le cas dans lequel la non-réponse dépend de la variable étudiée, un cas qui est particulièrement dangereux dans les sondages non probabilistes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200004
    Description :

    Cet exposé vise à approfondir l’examen de Wu sur l’inférence à partir d’échantillons non probabilistes, ainsi qu’à mettre en évidence les aspects qui constituent probablement d’autres pistes de recherche utiles. Elle se termine par un appel en faveur d’un registre organisé d’enquêtes probabilistes de grande qualité qui visera à fournir des renseignements utiles à l’ajustement d’enquêtes non probabilistes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200005
    Description :

    Des hypothèses solides sont nécessaires pour faire des inférences au sujet d’une population finie à partir d’un échantillon non probabiliste. Les statistiques d’un échantillon non probabiliste devraient être accompagnées de preuves que les hypothèses sont respectées et que les estimations ponctuelles et les intervalles de confiance sont propres à l’utilisation. Je décris certains diagnostics qui peuvent être utilisés pour évaluer les hypothèses du modèle, et je discute des questions à prendre en considération au moment de décider s’il convient d’utiliser les données d’un échantillon non probabiliste.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200006
    Description :

    Il n’est pas possible de tirer parti de la puissante probabilité du plan pour établir l’inférence fondée sur la randomisation à partir d’échantillons non probabilistes. Cela nous incite à exploiter une probabilité divine naturelle qui accompagne toute population finie. Dans cette perspective, un des paramètres principaux est la corrélation due à un défaut des données (cdd), qui est la corrélation de la population finie sans modèle entre l’indicateur d’inclusion de l’échantillon de la personne et la caractéristique de la personne échantillonnée. Un mécanisme de génération de données équivaut à un échantillonnage probabiliste, en ce qui concerne l’effet de plan, si et seulement si la cdd correspondante est de l’ordre (stochastique) N-1/2, où N est la taille de la population (Meng, 2018). Par conséquent, les méthodes d’estimation linéaire valides existantes pour les échantillons non probabilistes peuvent être converties en plusieurs stratégies de miniaturisation de la cdd jusqu’à l’ordre N-1/2. Les méthodes quasi fondées sur le plan permettent d’accomplir cette tâche en réduisant la variabilité entre les N propensions d’inclusion au moyen d’une pondération. L’approche fondée sur un modèle de superpopulation permet d’atteindre le même objectif par la réduction de la variabilité des caractéristiques des N personnes en les remplaçant par leurs résidus issus d’un modèle de régression. Les estimateurs doublement robustes doivent la propriété dont ils portent le nom au fait qu’une corrélation est nulle chaque fois qu’une des variables corrélées est constante, quelle qu’elle soit. Comprendre les points communs de ces méthodes au moyen de la cdd nous aide à voir clairement la possibilité d’une « robustesse plus que double », c’est-à-dire une estimation valide qui ne dépend pas de la pleine validité du modèle de régression ni de la propension d’inclusion estimée, qui ne sont garanties ni l’une ni l’autre parce que les deux reposent sur la probabilité du procédé. Les renseignements générés par la cdd incitent également à un sous-échantillonnage de contrebalancement, une stratégie visant à créer une miniature de la population à partir d’un échantillon non probabiliste, et comportant un compromis de qualité et de quantité favorable parce que les erreurs quadratiques moyennes sont beaucoup plus sensibles à la cdd qu’à la taille de l’échantillon, en particulier pour les populations de grande taille.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200007
    Description :

    L’inférence statistique avec des échantillons d’enquête non probabilistes est un problème complexe bien connu en statistique. Dans la présente analyse, nous proposons deux nouvelles méthodes non paramétriques d’estimation des scores de propension pour pondérer les échantillons non probabilistes, à savoir la projection d’information et le calage uniforme dans un espace de Hilbert à noyau reproduisant.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200008
    Description :

    La présente réponse contient des remarques supplémentaires sur certaines questions soulevées par les participants à la discussion.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200009
    Description :

    L’imputation multiple est une approche populaire pour traiter les données manquantes découlant de la non-réponse dans les enquêtes-échantillons. L’imputation multiple au moyen d’équations en séries (MICE) est l’un des algorithmes d’imputation multiple les plus utilisés pour les données multivariées, mais son fondement théorique est insuffisant et elle exige beaucoup de calculs. Récemment, des méthodes d’imputation des données manquantes fondées sur des modèles d’apprentissage profond ont été élaborées, ce qui a donné des résultats encourageants dans de petites études. Cependant, peu de recherches ont été menées sur l’évaluation de leur rendement dans des contextes réalistes par rapport à la MICE, en particulier dans le cadre de grandes enquêtes. Nous menons de vastes études de simulation fondées sur un sous-échantillon de l’American Community Survey afin de comparer les propriétés d’échantillonnage répété de quatre méthodes d’apprentissage automatique fondées sur l’imputation multiple : MICE avec arbres de classification; MICE avec forêts aléatoires; réseaux antagonistes génératifs pour l’imputation; et imputation multiple à l’aide d’autoencodeurs débruiteurs. Nous constatons que les méthodes d’imputation fondées sur des modèles d’apprentissage profond sont plus efficaces que la MICE en ce qui a trait au temps de calcul. Cependant, étant donné le choix par défaut des hyperparamètres dans les progiciels communs, la MICE avec arbres de classification dépasse constamment, souvent de loin, les méthodes d’imputation fondées sur l’apprentissage profond quant au biais, à l’erreur quadratique moyenne et à la couverture dans une gamme de paramètres réalistes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200010
    Description :

    Des modèles de séries chronologiques multiniveaux sont appliqués pour estimer les tendances de séries chronologiques de la couverture des soins prénataux à plusieurs niveaux administratifs du Bangladesh, d’après les cycles répétés de la Bangladesh Demographic and Health Survey (BDHS, Enquête démographique et sur la santé du Bangladesh) pendant la période allant de 1994 à 2014. Les modèles de séries chronologiques multiniveaux sont exprimés dans un cadre bayésien hiérarchique et ajustés au moyen de simulations Monte Carlo par chaînes de Markov. Les modèles tiennent compte des intervalles variables de trois ou quatre ans entre les cycles de la BDHS et fournissent aussi des prédictions pour les années intermédiaires. Il est proposé d’appliquer les modèles transversaux de Fay-Herriot aux années d’enquête séparément au niveau des districts, soit l’échelle régionale la plus détaillée. Les séries chronologiques de ces prédictions pour petits domaines au niveau des districts et leurs matrices de variance-covariance sont utilisées comme séries de données d’entrée pour les modèles de séries chronologiques multiniveaux. Dans ces modèles, on examine les corrélations spatiales entre les districts, la pente et l’ordonnée à l’origine aléatoires au niveau des districts, ainsi que les différents modèles de tendance au niveau des districts et aux niveaux régionaux plus élevés pour l’emprunt d’information dans le temps et l’espace. Les estimations des tendances au niveau des districts sont obtenues directement à partir des résultats des modèles, tandis que les estimations des tendances à des échelons régionaux et nationaux plus élevés sont obtenues par agrégation des prédictions au niveau des districts, ce qui donne un ensemble cohérent d’estimations des tendances sur le plan numérique.

    Date de diffusion : 2022-12-15
Revues et périodiques (0)

Revues et périodiques (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :