Analyses

Aller au contenu principal
Aller au pied de page

Sélection de la langue

English

Recherche et menus

Recherche et menus

Rechercher

Passer au filtres. Voir les résultats.

Quoi de neuf sur notre site

Centre de confiance de Statistique Canada

Résultats

Tout (28)

Tout (28) (0 à 10 de 28 résultats)

1. Réponse de l’auteur aux commentaires sur l’article « Hypothèse de l’échangeabilité dans des méthodes d’ajustement fondées sur le score de propension aux fins d’estimation de la moyenne de population au moyen d’échantillons non probabilistes »
Articles et rapports : 12-001-X202400100005
Description : Dans cette réplique, je réponds aux commentaires des participants à l’analyse, M. Takumi Saegusa, M. Jae-Kwang Kim et Mme Yonghyun Kwon. Les commentaires de M. Saegusa, qui portent sur les différences entre l’hypothèse d’échangeabilité conditionnelle (EC) pour les inférences causales et l’hypothèse d’EC pour les inférences de population finie au moyen d’échantillons non probabilistes ainsi que sur la distinction entre les méthodes fondées sur le plan et celles fondées sur un modèle pour l’inférence de population finie au moyen d’échantillons non probabilistes, sont examinés et clarifiés dans le contexte de mon article. Je réponds ensuite au cadre exhaustif de M. Kim et de Mme Kwon pour classer les méthodes actuelles d’estimation des scores de propension (SP) en méthodes conditionnelles et inconditionnelles. J’étends leurs études par simulations pour varier les poids de sondage, permettre des modèles de SP incorrectement précisés, et inclure un estimateur supplémentaire, à savoir l’estimateur par la propension logistique ajustée mis à l’échelle (Wang, Valliant et Li (2021), noté sWBS). Dans mes simulations, on observe que l’estimateur sWBS dépasse de façon constante les autres estimateurs ou leur est comparable dans le modèle de SP incorrectement précisé. L’estimateur sWBS, ainsi que les estimateurs WBS ou ABS décrits dans mon article, ne supposent pas que les unités superposées dans les échantillons de référence probabiliste et non probabiliste sont négligeables, et ils n’exigent pas non plus l’identification des unités superposées, comme le nécessitent les estimateurs proposés par M. Kim et Mme Kwon.
Date de diffusion : 2024-06-25
2. Hypothèse de l’échangeabilité dans des méthodes d’ajustement fondées sur le score de propension aux fins d’estimation de la moyenne de population au moyen d’échantillons non probabilistes
Articles et rapports : 12-001-X202400100008
Description : Des échantillons non probabilistes émergent rapidement pour aborder des sujets prioritaires urgents dans différents domaines. Ces données sont actuelles, mais sujettes à un biais de sélection. Afin de réduire le biais de sélection, une littérature abondante portant sur la recherche sur les enquêtes a étudié l’utilisation de méthodes d’ajustement par le score de propension (SP) pour améliorer la représentativité de la population des échantillons non probabilistes, au moyen d’échantillons d’enquête probabilistes utilisés comme références externes. L’hypothèse d’échangeabilité conditionnelle (EC) est l’une des principales hypothèses requises par les méthodes d’ajustement fondées sur le SP. Dans le présent article, j’examine d’abord la validité de l’hypothèse de l’EC conditionnellement à plusieurs estimations de scores d’équilibrage qui sont utilisées dans les méthodes d’ajustement fondées sur le SP existantes. Un score d’équilibrage adaptatif est proposé aux fins d’estimation sans biais des moyennes de population. Les estimateurs de la moyenne de population selon les trois hypothèses de l’EC sont évalués au moyen d’études de simulation de Monte Carlo et illustrés au moyen de l’étude sur la séroprévalence du SRAS-CoV-2 des National Institutes of Health pour estimer la proportion d’adultes aux États-Unis qui présentaient des anticorps de la COVID-19 du 1^er avril au 4 août 2020.
Date de diffusion : 2024-06-25
3. Réponse des auteurs aux commentaires sur l’article « Étude de l’hypothèse selon laquelle les répondants aux enquêtes non probabilistes en ligne menées à des fins commerciales répondent en toute bonne foi »
Articles et rapports : 12-001-X202400100009
Description : Nos commentaires répondent aux points de discussion soulevés par Sen, Brick et Elliott. Nous évaluons les avantages et les inconvénients potentiels de la suggestion de Sen de recourir à l’apprentissage automatique pour repérer les faux répondants au moyen d’interactions et de combinaisons improbables de variables. Nous rejoignons la réflexion de Brick sur l’incidence des faux répondants sur les enquêtes non probabilistes menées à des fins commerciales. Enfin, nous examinons les solutions proposées par Elliott pour relever le défi exposé dans notre étude.
Date de diffusion : 2024-06-25
4. Étude de l’hypothèse selon laquelle les répondants aux enquêtes non probabilistes en ligne menées à des fins commerciales répondent en toute bonne foi
Articles et rapports : 12-001-X202400100013
Description : Les méthodes statistiques élaborées pour les échantillons non probabilistes sont généralement axées sur la sélection non aléatoire comme principale raison pour laquelle les répondants à l’enquête peuvent différer systématiquement de la population cible. Selon une théorie bien établie, dans ces cas, si elle est conditionnée sur des variables auxiliaires nécessaires, la sélection peut devenir ignorable et les estimations d’enquête sont alors sans biais. Toutefois, cette logique repose sur l’hypothèse selon laquelle l’erreur de mesure est inexistante ou faible. Dans la présente étude, nous testons cette hypothèse de deux façons. Premièrement, nous utilisons une vaste étude d’étalonnage qui permet de déterminer les sous-groupes pour lesquels les erreurs dans les échantillons d’enquêtes non probabilistes menées en ligne à des fins commerciales sont particulièrement grandes d’une manière improbable en raison des effets de sélection. Nous présentons ensuite une étude de suivi qui porte sur une des causes des grandes erreurs : les fausses réponses (c’est-à-dire les réponses d’enquête qui sont frauduleuses, malveillantes ou non sincères d’une autre manière). Nous constatons que les fausses réponses, en particulier chez les répondants qui déclarent être jeunes ou d’origine hispanique, constituent un problème important et répandu dans les échantillons d’enquêtes non probabilistes menées en ligne à des fins commerciales, du moins aux États-Unis. La présente étude met en évidence la nécessité pour les statisticiens utilisant des échantillons non probabilistes établis à des fins commerciales de traiter les fausses réponses et les questions de représentativité, et pas uniquement ces dernières.
Date de diffusion : 2024-06-25
5. Préface au numéro spécial pour les articles présentés lors de la 29e conférence Morris Hansen portant sur l’utilisation d’échantillons non probabilistes
Articles et rapports : 12-001-X202400100014
Description : Cet article est une introduction au numéro spécial sur l’utilisation d’échantillons non probabilistes comprenant trois articles présentés lors de la 29^e conférence Morris Hansen par Courtney Kennedy, Yan Li et Jean-François Beaumont.
Date de diffusion : 2024-06-25
6. Améliorations apportées à la méthodologie de l’Enquête canadienne sur le revenu pour l’année de référence 2022
Articles et rapports : 75F0002M2024005
Description : Des améliorations ont été apportées aux méthodes et aux sources de données utilisées dans le cadre de l'Enquête canadienne sur le revenu (ECR) pour produire les estimations du revenu et de la pauvreté, lors de la diffusion des estimations pour l'année de référence 2022. La plus importante de ces améliorations est une augmentation significative de la taille de l'échantillon pour un grand sous-ensemble du contenu de l'ECR. La méthodologie de pondération a également été améliorée et la population cible de l'ECR est passée des personnes de 16 ans et plus aux personnes de 15 ans et plus. Cet article décrit les changements apportés et présente le résultat net approximatif de ces changements sur les estimations de revenu et sur la qualité des données de l'ECR, à l'aide des données de 2021. Les changements décrits dans le présent document mettent en évidence les façons dont la qualité des données a été améliorée tout en ayant de faibles répercussions sur les principales estimations et tendances de l'ECR.
Date de diffusion : 2024-04-26
7. Stratification fondée sur un modèle de populations de paiements dans les enquêtes au sujet de l’intégrité de Medicare
Articles et rapports : 12-001-X202300200001
Description : Lorsqu’un fournisseur de soins de santé de Medicare est soupçonné de fraude liée à la facturation, on isole une population de paiements X versés à ce fournisseur sur une certaine période. Un examinateur médical agréé peut, dans un long processus, établir le trop-payé Y = X - (montant justifié par la preuve) pour chaque paiement. En temps normal, il y aura trop de paiements dans une population pour que chacun soit examiné avec soin, aussi prélève-t-on un échantillon probabiliste. Les trop-payés de cet échantillon servent alors à calculer une borne inférieure de l’intervalle de confiance de 90 % pour le trop-payé total de cette population. La borne correspond au montant exigé en recouvrement auprès du fournisseur. Malheureusement, les méthodes classiques de calcul de cette borne ne permettent parfois pas de dégager le niveau de confiance de 90 %, plus particulièrement lorsqu’on utilise un échantillon stratifié.
Dans le présent document, nous présentons et décrivons 166 échantillons épurés tirés des enquêtes au sujet de l’intégrité de Medicare qui comportent 156 populations de paiements correspondantes. Les 7 588 paires échantillonnées (Y, X) indiquent 1) que les vérifications réalisées au sein de Medicare affichent des taux d’erreur élevés : plus de 76 % des paiements en question sont considérés comme étant des erreurs. Elles indiquent aussi 2) que les configurations de ces échantillons vont dans le sens d’un modèle de mélange « tout ou rien » pour (Y, X) qui est déjà défini dans les études spécialisées. Nous analysons des procédures de test de Monte Carlo fondées sur un modèle pour les plans de sondage de Medicare, ainsi que des méthodes de stratification fondées sur les moments anticipés du modèle. Pour la viabilité (atteinte d’un niveau de confiance de 90 %), nous définissons dans le présent article une nouvelle méthode de stratification qui rivalise avec les meilleures parmi de nombreuses méthodes existantes et qui semble moins sensible au choix de paramètres d’exploitation. Pour ce qui est du recouvrement des trop-payés (ce qui équivaut à une mesure de la précision), la nouvelle méthode se compare aussi aux meilleures parmi les nombreuses méthodes expérimentées. Malheureusement, aucun algorithme de stratification mis à l’essai ne s’est révélé viable pour plus de la moitié environ des 104 populations visées par l’essai.
Date de diffusion : 2024-01-03
8. Méthode d’estimation de l’effet des erreurs de classification sur les statistiques de deux domaines
Articles et rapports : 12-001-X202300200002
Description : Il est essentiel de pouvoir quantifier l’exactitude (biais, variance) des résultats publiés dans les statistiques officielles. Dans ces dernières, les résultats sont presque toujours divisés en sous-populations selon une variable de classification, comme le revenu moyen par catégorie de niveau de scolarité. Ces résultats sont également appelés « statistiques de domaine ». Dans le présent article, nous nous limitons aux variables de classification binaire. En pratique, des erreurs de classification se produisent et contribuent au biais et à la variance des statistiques de domaine. Les méthodes analytiques et numériques servant actuellement à estimer cet effet présentent deux inconvénients. Le premier inconvénient est qu’elles exigent que les probabilités de classification erronée soient connues au préalable et le deuxième est que les estimations du biais et de la variance sont elles-mêmes biaisées. Dans le présent article, nous présentons une nouvelle méthode, un modèle de mélange gaussien estimé par un algorithme espérance-maximisation (EM) combiné à un bootstrap, appelé « méthode bootstrap EM ». Cette nouvelle méthode n’exige pas que les probabilités de classification erronée soient connues au préalable, bien qu’elle soit plus efficace quand on utilise un petit échantillon de vérification qui donne une valeur de départ pour les probabilités de classification erronée dans l’algorithme EM. Nous avons comparé le rendement de la nouvelle méthode et celui des méthodes numériques actuellement disponibles, à savoir la méthode bootstrap et la méthode SIMEX. Des études antérieures ont démontré que pour les paramètres non linéaires, le bootstrap donne de meilleurs résultats que les expressions analytiques. Pour presque toutes les conditions mises à l’essai, les estimations du biais et de la variance obtenues par la méthode bootstrap EM sont plus proches de leurs vraies valeurs que celles obtenues par les méthodes bootstrap et SIMEX. Nous terminons l’article par une discussion sur les résultats et d’éventuels prolongements de la méthode.
Date de diffusion : 2024-01-03
9. Traiter le sous-dénombrement pour les échantillons d’enquête non probabilistes
Articles et rapports : 12-001-X202300200005
Description : Le sous-dénombrement de la population est un des principaux obstacles avec lesquels il faut composer lors de l’analyse statistique d’échantillons d’enquête non probabilistes. Nous considérons dans le présent article deux scénarios types de sous-dénombrement, à savoir le sous-dénombrement stochastique et le sous-dénombrement déterministe. Nous soutenons que l’on peut appliquer directement les méthodes d’estimation existantes selon l’hypothèse de positivité sur les scores de propension (c’est-à-dire les probabilités de participation) pour traiter le scénario de sous-dénombrement stochastique. Nous étudions des stratégies visant à atténuer les biais lors de l’estimation de la moyenne de la population cible selon le sous-dénombrement déterministe. Plus précisément, nous examinons une méthode de population fractionnée (split-population method) fondée sur une formulation d’enveloppe convexe et nous construisons des estimateurs menant à des biais réduits. Un estimateur doublement robuste peut être construit si un sous-échantillon de suivi de l’enquête probabiliste de référence comportant des mesures sur la variable étudiée devient réalisable. Le rendement de six estimateurs concurrents est examiné au moyen d’une étude par simulations, et des questions nécessitant un examen plus approfondi sont brièvement abordées.
Date de diffusion : 2024-01-03
10. Construire tous les plans de sondage déterminantaux
Articles et rapports : 12-001-X202300200008
Description : Dans cet article, nous utilisons une version légèrement simplifiée de la méthode de Fickus, Mixon et Poteet (2013) pour définir une paramétrisation maniable des noyaux des plans de sondages déterminantaux à probabilités d’inclusion simple fixées. Pour des valeurs spécifiques du paramètre multidimensionnel, nous retrouvons une matrice de la famille P^II de Loonis et Mary (2019). Nous conjecturons que, parmi les plans déterminantaux à probabilités d’inclusion fixées la variance minimale de l’estimateur d’Horvitz et Thompson (1952) d’une variable d’intérêt, s’exprime en fonction de P^II. Nous mettons à disposition des programmes R expérimentaux facilitant l’appropriation de différentes notions présentées dans l’article, et dont certaines sont qualifiées de non-triviales par Fickus et coll. (2013). Une version longue de cet article, contenant les démonstrations et une présentation plus détaillée des plans déterminantaux, est également mise à disposition.
Date de diffusion : 2024-01-03

Stats en bref (1)

Stats en bref (1) ((1 résultat))

1. Créés égaux
Stats en bref : 45-20-00032022002
Description :
Le Canada est une société plurielle, ayant un patrimoine culturel d’une grande richesse. Les divers peuples issus des quatre coins du monde ont fait du Canada une terre d’accueil. Néanmoins, même dans une société aussi plurielle que la nôtre, il peut être difficile d’éliminer toutes les formes de discrimination. Dans cet épisode, nous avons voulu porter un regard critique sur la manière dont les préjugés qui nourrissent le racisme systémique peuvent avoir un effet même sur les éléments les plus neutres?: nos données. Les données ont la réputation de refléter la réalité de la manière la plus factuelle possible, mais est-ce toujours le cas? Nous nous sommes aussi questionnés sur le rôle que peuvent jouer les données dans la lutte pour une société canadienne plus équitable.

Joignez-vous à nos invités, Sarah Messou-Ghelazzi, agente de communication pour Statistique Canada, Filsan Hujaleh, analyste au Centre d’analyse des données sociales et d’innovation à Statistique Canada, Jeff Latimer, directeur général, responsable de la Santé, Justice, Diversité et Population à Statistique Canada et Pauline Tuitoek, directrice ajointe au centre des statistiques sur le genre, la diversité et l'inclusion à Statistique Canada en explorant le rôle que les données peuvent jouer pour faire du Canada une société plus égalitaire pour tous.

Narration : Alexandra Bassa et Chris Houle

Date de diffusion : 2022-03-16

Articles et rapports (27)

Articles et rapports (27) (0 à 10 de 27 résultats)

1. Réponse de l’auteur aux commentaires sur l’article « Hypothèse de l’échangeabilité dans des méthodes d’ajustement fondées sur le score de propension aux fins d’estimation de la moyenne de population au moyen d’échantillons non probabilistes »
Articles et rapports : 12-001-X202400100005
Description : Dans cette réplique, je réponds aux commentaires des participants à l’analyse, M. Takumi Saegusa, M. Jae-Kwang Kim et Mme Yonghyun Kwon. Les commentaires de M. Saegusa, qui portent sur les différences entre l’hypothèse d’échangeabilité conditionnelle (EC) pour les inférences causales et l’hypothèse d’EC pour les inférences de population finie au moyen d’échantillons non probabilistes ainsi que sur la distinction entre les méthodes fondées sur le plan et celles fondées sur un modèle pour l’inférence de population finie au moyen d’échantillons non probabilistes, sont examinés et clarifiés dans le contexte de mon article. Je réponds ensuite au cadre exhaustif de M. Kim et de Mme Kwon pour classer les méthodes actuelles d’estimation des scores de propension (SP) en méthodes conditionnelles et inconditionnelles. J’étends leurs études par simulations pour varier les poids de sondage, permettre des modèles de SP incorrectement précisés, et inclure un estimateur supplémentaire, à savoir l’estimateur par la propension logistique ajustée mis à l’échelle (Wang, Valliant et Li (2021), noté sWBS). Dans mes simulations, on observe que l’estimateur sWBS dépasse de façon constante les autres estimateurs ou leur est comparable dans le modèle de SP incorrectement précisé. L’estimateur sWBS, ainsi que les estimateurs WBS ou ABS décrits dans mon article, ne supposent pas que les unités superposées dans les échantillons de référence probabiliste et non probabiliste sont négligeables, et ils n’exigent pas non plus l’identification des unités superposées, comme le nécessitent les estimateurs proposés par M. Kim et Mme Kwon.
Date de diffusion : 2024-06-25
2. Hypothèse de l’échangeabilité dans des méthodes d’ajustement fondées sur le score de propension aux fins d’estimation de la moyenne de population au moyen d’échantillons non probabilistes
Articles et rapports : 12-001-X202400100008
Description : Des échantillons non probabilistes émergent rapidement pour aborder des sujets prioritaires urgents dans différents domaines. Ces données sont actuelles, mais sujettes à un biais de sélection. Afin de réduire le biais de sélection, une littérature abondante portant sur la recherche sur les enquêtes a étudié l’utilisation de méthodes d’ajustement par le score de propension (SP) pour améliorer la représentativité de la population des échantillons non probabilistes, au moyen d’échantillons d’enquête probabilistes utilisés comme références externes. L’hypothèse d’échangeabilité conditionnelle (EC) est l’une des principales hypothèses requises par les méthodes d’ajustement fondées sur le SP. Dans le présent article, j’examine d’abord la validité de l’hypothèse de l’EC conditionnellement à plusieurs estimations de scores d’équilibrage qui sont utilisées dans les méthodes d’ajustement fondées sur le SP existantes. Un score d’équilibrage adaptatif est proposé aux fins d’estimation sans biais des moyennes de population. Les estimateurs de la moyenne de population selon les trois hypothèses de l’EC sont évalués au moyen d’études de simulation de Monte Carlo et illustrés au moyen de l’étude sur la séroprévalence du SRAS-CoV-2 des National Institutes of Health pour estimer la proportion d’adultes aux États-Unis qui présentaient des anticorps de la COVID-19 du 1^er avril au 4 août 2020.
Date de diffusion : 2024-06-25
3. Réponse des auteurs aux commentaires sur l’article « Étude de l’hypothèse selon laquelle les répondants aux enquêtes non probabilistes en ligne menées à des fins commerciales répondent en toute bonne foi »
Articles et rapports : 12-001-X202400100009
Description : Nos commentaires répondent aux points de discussion soulevés par Sen, Brick et Elliott. Nous évaluons les avantages et les inconvénients potentiels de la suggestion de Sen de recourir à l’apprentissage automatique pour repérer les faux répondants au moyen d’interactions et de combinaisons improbables de variables. Nous rejoignons la réflexion de Brick sur l’incidence des faux répondants sur les enquêtes non probabilistes menées à des fins commerciales. Enfin, nous examinons les solutions proposées par Elliott pour relever le défi exposé dans notre étude.
Date de diffusion : 2024-06-25
4. Étude de l’hypothèse selon laquelle les répondants aux enquêtes non probabilistes en ligne menées à des fins commerciales répondent en toute bonne foi
Articles et rapports : 12-001-X202400100013
Description : Les méthodes statistiques élaborées pour les échantillons non probabilistes sont généralement axées sur la sélection non aléatoire comme principale raison pour laquelle les répondants à l’enquête peuvent différer systématiquement de la population cible. Selon une théorie bien établie, dans ces cas, si elle est conditionnée sur des variables auxiliaires nécessaires, la sélection peut devenir ignorable et les estimations d’enquête sont alors sans biais. Toutefois, cette logique repose sur l’hypothèse selon laquelle l’erreur de mesure est inexistante ou faible. Dans la présente étude, nous testons cette hypothèse de deux façons. Premièrement, nous utilisons une vaste étude d’étalonnage qui permet de déterminer les sous-groupes pour lesquels les erreurs dans les échantillons d’enquêtes non probabilistes menées en ligne à des fins commerciales sont particulièrement grandes d’une manière improbable en raison des effets de sélection. Nous présentons ensuite une étude de suivi qui porte sur une des causes des grandes erreurs : les fausses réponses (c’est-à-dire les réponses d’enquête qui sont frauduleuses, malveillantes ou non sincères d’une autre manière). Nous constatons que les fausses réponses, en particulier chez les répondants qui déclarent être jeunes ou d’origine hispanique, constituent un problème important et répandu dans les échantillons d’enquêtes non probabilistes menées en ligne à des fins commerciales, du moins aux États-Unis. La présente étude met en évidence la nécessité pour les statisticiens utilisant des échantillons non probabilistes établis à des fins commerciales de traiter les fausses réponses et les questions de représentativité, et pas uniquement ces dernières.
Date de diffusion : 2024-06-25
5. Préface au numéro spécial pour les articles présentés lors de la 29e conférence Morris Hansen portant sur l’utilisation d’échantillons non probabilistes
Articles et rapports : 12-001-X202400100014
Description : Cet article est une introduction au numéro spécial sur l’utilisation d’échantillons non probabilistes comprenant trois articles présentés lors de la 29^e conférence Morris Hansen par Courtney Kennedy, Yan Li et Jean-François Beaumont.
Date de diffusion : 2024-06-25
6. Améliorations apportées à la méthodologie de l’Enquête canadienne sur le revenu pour l’année de référence 2022
Articles et rapports : 75F0002M2024005
Description : Des améliorations ont été apportées aux méthodes et aux sources de données utilisées dans le cadre de l'Enquête canadienne sur le revenu (ECR) pour produire les estimations du revenu et de la pauvreté, lors de la diffusion des estimations pour l'année de référence 2022. La plus importante de ces améliorations est une augmentation significative de la taille de l'échantillon pour un grand sous-ensemble du contenu de l'ECR. La méthodologie de pondération a également été améliorée et la population cible de l'ECR est passée des personnes de 16 ans et plus aux personnes de 15 ans et plus. Cet article décrit les changements apportés et présente le résultat net approximatif de ces changements sur les estimations de revenu et sur la qualité des données de l'ECR, à l'aide des données de 2021. Les changements décrits dans le présent document mettent en évidence les façons dont la qualité des données a été améliorée tout en ayant de faibles répercussions sur les principales estimations et tendances de l'ECR.
Date de diffusion : 2024-04-26
7. Stratification fondée sur un modèle de populations de paiements dans les enquêtes au sujet de l’intégrité de Medicare
Articles et rapports : 12-001-X202300200001
Description : Lorsqu’un fournisseur de soins de santé de Medicare est soupçonné de fraude liée à la facturation, on isole une population de paiements X versés à ce fournisseur sur une certaine période. Un examinateur médical agréé peut, dans un long processus, établir le trop-payé Y = X - (montant justifié par la preuve) pour chaque paiement. En temps normal, il y aura trop de paiements dans une population pour que chacun soit examiné avec soin, aussi prélève-t-on un échantillon probabiliste. Les trop-payés de cet échantillon servent alors à calculer une borne inférieure de l’intervalle de confiance de 90 % pour le trop-payé total de cette population. La borne correspond au montant exigé en recouvrement auprès du fournisseur. Malheureusement, les méthodes classiques de calcul de cette borne ne permettent parfois pas de dégager le niveau de confiance de 90 %, plus particulièrement lorsqu’on utilise un échantillon stratifié.
Dans le présent document, nous présentons et décrivons 166 échantillons épurés tirés des enquêtes au sujet de l’intégrité de Medicare qui comportent 156 populations de paiements correspondantes. Les 7 588 paires échantillonnées (Y, X) indiquent 1) que les vérifications réalisées au sein de Medicare affichent des taux d’erreur élevés : plus de 76 % des paiements en question sont considérés comme étant des erreurs. Elles indiquent aussi 2) que les configurations de ces échantillons vont dans le sens d’un modèle de mélange « tout ou rien » pour (Y, X) qui est déjà défini dans les études spécialisées. Nous analysons des procédures de test de Monte Carlo fondées sur un modèle pour les plans de sondage de Medicare, ainsi que des méthodes de stratification fondées sur les moments anticipés du modèle. Pour la viabilité (atteinte d’un niveau de confiance de 90 %), nous définissons dans le présent article une nouvelle méthode de stratification qui rivalise avec les meilleures parmi de nombreuses méthodes existantes et qui semble moins sensible au choix de paramètres d’exploitation. Pour ce qui est du recouvrement des trop-payés (ce qui équivaut à une mesure de la précision), la nouvelle méthode se compare aussi aux meilleures parmi les nombreuses méthodes expérimentées. Malheureusement, aucun algorithme de stratification mis à l’essai ne s’est révélé viable pour plus de la moitié environ des 104 populations visées par l’essai.
Date de diffusion : 2024-01-03
8. Méthode d’estimation de l’effet des erreurs de classification sur les statistiques de deux domaines
Articles et rapports : 12-001-X202300200002
Description : Il est essentiel de pouvoir quantifier l’exactitude (biais, variance) des résultats publiés dans les statistiques officielles. Dans ces dernières, les résultats sont presque toujours divisés en sous-populations selon une variable de classification, comme le revenu moyen par catégorie de niveau de scolarité. Ces résultats sont également appelés « statistiques de domaine ». Dans le présent article, nous nous limitons aux variables de classification binaire. En pratique, des erreurs de classification se produisent et contribuent au biais et à la variance des statistiques de domaine. Les méthodes analytiques et numériques servant actuellement à estimer cet effet présentent deux inconvénients. Le premier inconvénient est qu’elles exigent que les probabilités de classification erronée soient connues au préalable et le deuxième est que les estimations du biais et de la variance sont elles-mêmes biaisées. Dans le présent article, nous présentons une nouvelle méthode, un modèle de mélange gaussien estimé par un algorithme espérance-maximisation (EM) combiné à un bootstrap, appelé « méthode bootstrap EM ». Cette nouvelle méthode n’exige pas que les probabilités de classification erronée soient connues au préalable, bien qu’elle soit plus efficace quand on utilise un petit échantillon de vérification qui donne une valeur de départ pour les probabilités de classification erronée dans l’algorithme EM. Nous avons comparé le rendement de la nouvelle méthode et celui des méthodes numériques actuellement disponibles, à savoir la méthode bootstrap et la méthode SIMEX. Des études antérieures ont démontré que pour les paramètres non linéaires, le bootstrap donne de meilleurs résultats que les expressions analytiques. Pour presque toutes les conditions mises à l’essai, les estimations du biais et de la variance obtenues par la méthode bootstrap EM sont plus proches de leurs vraies valeurs que celles obtenues par les méthodes bootstrap et SIMEX. Nous terminons l’article par une discussion sur les résultats et d’éventuels prolongements de la méthode.
Date de diffusion : 2024-01-03
9. Traiter le sous-dénombrement pour les échantillons d’enquête non probabilistes
Articles et rapports : 12-001-X202300200005
Description : Le sous-dénombrement de la population est un des principaux obstacles avec lesquels il faut composer lors de l’analyse statistique d’échantillons d’enquête non probabilistes. Nous considérons dans le présent article deux scénarios types de sous-dénombrement, à savoir le sous-dénombrement stochastique et le sous-dénombrement déterministe. Nous soutenons que l’on peut appliquer directement les méthodes d’estimation existantes selon l’hypothèse de positivité sur les scores de propension (c’est-à-dire les probabilités de participation) pour traiter le scénario de sous-dénombrement stochastique. Nous étudions des stratégies visant à atténuer les biais lors de l’estimation de la moyenne de la population cible selon le sous-dénombrement déterministe. Plus précisément, nous examinons une méthode de population fractionnée (split-population method) fondée sur une formulation d’enveloppe convexe et nous construisons des estimateurs menant à des biais réduits. Un estimateur doublement robuste peut être construit si un sous-échantillon de suivi de l’enquête probabiliste de référence comportant des mesures sur la variable étudiée devient réalisable. Le rendement de six estimateurs concurrents est examiné au moyen d’une étude par simulations, et des questions nécessitant un examen plus approfondi sont brièvement abordées.
Date de diffusion : 2024-01-03
10. Construire tous les plans de sondage déterminantaux
Articles et rapports : 12-001-X202300200008
Description : Dans cet article, nous utilisons une version légèrement simplifiée de la méthode de Fickus, Mixon et Poteet (2013) pour définir une paramétrisation maniable des noyaux des plans de sondages déterminantaux à probabilités d’inclusion simple fixées. Pour des valeurs spécifiques du paramètre multidimensionnel, nous retrouvons une matrice de la famille P^II de Loonis et Mary (2019). Nous conjecturons que, parmi les plans déterminantaux à probabilités d’inclusion fixées la variance minimale de l’estimateur d’Horvitz et Thompson (1952) d’une variable d’intérêt, s’exprime en fonction de P^II. Nous mettons à disposition des programmes R expérimentaux facilitant l’appropriation de différentes notions présentées dans l’article, et dont certaines sont qualifiées de non-triviales par Fickus et coll. (2013). Une version longue de cet article, contenant les démonstrations et une présentation plus détaillée des plans déterminantaux, est également mise à disposition.
Date de diffusion : 2024-01-03

Revues et périodiques (0)

Revues et périodiques (0) (0 résultat)

Aucun contenu disponible actuellement

Signaler un problème ou une erreur sur cette page

Date de modification :: 2024-07-06

Comment utiliser les filtres et le champ de recherche

Vous pouvez faire une recherche en inscrivant des mots-clés ou en sélectionnant des filtres (p. ex. sous Sujet, Géographie, etc.) du côté gauche de la page.
On peut utiliser les filtres ensemble ou former diverses combinaisons. À chaque sélection de filtre, la page des résultats est mise à jour.
Pour commencer une nouvelle recherche, cliquez sur le bouton Effacer tout au-dessus du champ de recherche ou décochez tous les filtres.
Les mots-clés et les filtres précisés sont affichés au-dessus du champ de recherche. Vous pouvez désélectionner l’un ou l’autre des éléments ou tous les éléments, pour préciser ou effacer votre recherche.

Comment préciser ma recherche

Vous pouvez entrer des mots-clés dans le champ de recherche. Il n’est pas nécessaire d’utiliser « + » ou « , » ou « ET ».
Vous pouvez supprimer certains mots-clés ou tous les mots-clés de votre chaîne de recherche.
Les mots-clés entre guillemets limitent la recherche à l’expression précise.
- Par exemple, si vous cherchez « Enquête sur la population active », vous obtiendrez seulement des documents contenant cette suite de mots.
Utilisez « ou » entre les mots-clés pour obtenir des résultats qui contiennent au moins l’un des termes recherchés.
- Par exemple, si vous cherchez enquête ou population ou active, vous obtiendrez seulement les documents contenant l’un ou l’autre de ces mots, ou tous ces mots.

Comment fonctionne la recherche

Cette forme de recherche fournira les résultats contenant le(s) mot(s) inscrit(s) dans le titre, la description, le sujet, la géographie, le numéro de produit ou toute autre information au sujet du produit.
- Par exemple, lorsque vous cherchez le mot « maladies », tous les résultats obtenus contiendront ce mot dans le titre, la description, ou le sujet.
La recherche ne se fait pas dans le texte des articles ou des publications. Pour faire une recherche plein texte dans les articles, utilisez la fonction de recherche du site.