Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Année de publication

6 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 1 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (28)

Tout (28) (0 à 10 de 28 résultats)

  • Articles et rapports : 12-001-X202400100005
    Description : Dans cette réplique, je réponds aux commentaires des participants à l’analyse, M. Takumi Saegusa, M. Jae-Kwang Kim et Mme Yonghyun Kwon. Les commentaires de M. Saegusa, qui portent sur les différences entre l’hypothèse d’échangeabilité conditionnelle (EC) pour les inférences causales et l’hypothèse d’EC pour les inférences de population finie au moyen d’échantillons non probabilistes ainsi que sur la distinction entre les méthodes fondées sur le plan et celles fondées sur un modèle pour l’inférence de population finie au moyen d’échantillons non probabilistes, sont examinés et clarifiés dans le contexte de mon article. Je réponds ensuite au cadre exhaustif de M. Kim et de Mme Kwon pour classer les méthodes actuelles d’estimation des scores de propension (SP) en méthodes conditionnelles et inconditionnelles. J’étends leurs études par simulations pour varier les poids de sondage, permettre des modèles de SP incorrectement précisés, et inclure un estimateur supplémentaire, à savoir l’estimateur par la propension logistique ajustée mis à l’échelle (Wang, Valliant et Li (2021), noté sWBS). Dans mes simulations, on observe que l’estimateur sWBS dépasse de façon constante les autres estimateurs ou leur est comparable dans le modèle de SP incorrectement précisé. L’estimateur sWBS, ainsi que les estimateurs WBS ou ABS décrits dans mon article, ne supposent pas que les unités superposées dans les échantillons de référence probabiliste et non probabiliste sont négligeables, et ils n’exigent pas non plus l’identification des unités superposées, comme le nécessitent les estimateurs proposés par M. Kim et Mme Kwon.
    Date de diffusion : 2024-06-25

  • Articles et rapports : 12-001-X202400100008
    Description : Des échantillons non probabilistes émergent rapidement pour aborder des sujets prioritaires urgents dans différents domaines. Ces données sont actuelles, mais sujettes à un biais de sélection. Afin de réduire le biais de sélection, une littérature abondante portant sur la recherche sur les enquêtes a étudié l’utilisation de méthodes d’ajustement par le score de propension (SP) pour améliorer la représentativité de la population des échantillons non probabilistes, au moyen d’échantillons d’enquête probabilistes utilisés comme références externes. L’hypothèse d’échangeabilité conditionnelle (EC) est l’une des principales hypothèses requises par les méthodes d’ajustement fondées sur le SP. Dans le présent article, j’examine d’abord la validité de l’hypothèse de l’EC conditionnellement à plusieurs estimations de scores d’équilibrage qui sont utilisées dans les méthodes d’ajustement fondées sur le SP existantes. Un score d’équilibrage adaptatif est proposé aux fins d’estimation sans biais des moyennes de population. Les estimateurs de la moyenne de population selon les trois hypothèses de l’EC sont évalués au moyen d’études de simulation de Monte Carlo et illustrés au moyen de l’étude sur la séroprévalence du SRAS-CoV-2 des National Institutes of Health pour estimer la proportion d’adultes aux États-Unis qui présentaient des anticorps de la COVID-19 du 1er avril au 4 août 2020.
    Date de diffusion : 2024-06-25

  • Articles et rapports : 12-001-X202400100009
    Description : Nos commentaires répondent aux points de discussion soulevés par Sen, Brick et Elliott. Nous évaluons les avantages et les inconvénients potentiels de la suggestion de Sen de recourir à l’apprentissage automatique pour repérer les faux répondants au moyen d’interactions et de combinaisons improbables de variables. Nous rejoignons la réflexion de Brick sur l’incidence des faux répondants sur les enquêtes non probabilistes menées à des fins commerciales. Enfin, nous examinons les solutions proposées par Elliott pour relever le défi exposé dans notre étude.
    Date de diffusion : 2024-06-25

  • Articles et rapports : 12-001-X202400100013
    Description : Les méthodes statistiques élaborées pour les échantillons non probabilistes sont généralement axées sur la sélection non aléatoire comme principale raison pour laquelle les répondants à l’enquête peuvent différer systématiquement de la population cible. Selon une théorie bien établie, dans ces cas, si elle est conditionnée sur des variables auxiliaires nécessaires, la sélection peut devenir ignorable et les estimations d’enquête sont alors sans biais. Toutefois, cette logique repose sur l’hypothèse selon laquelle l’erreur de mesure est inexistante ou faible. Dans la présente étude, nous testons cette hypothèse de deux façons. Premièrement, nous utilisons une vaste étude d’étalonnage qui permet de déterminer les sous-groupes pour lesquels les erreurs dans les échantillons d’enquêtes non probabilistes menées en ligne à des fins commerciales sont particulièrement grandes d’une manière improbable en raison des effets de sélection. Nous présentons ensuite une étude de suivi qui porte sur une des causes des grandes erreurs : les fausses réponses (c’est-à-dire les réponses d’enquête qui sont frauduleuses, malveillantes ou non sincères d’une autre manière). Nous constatons que les fausses réponses, en particulier chez les répondants qui déclarent être jeunes ou d’origine hispanique, constituent un problème important et répandu dans les échantillons d’enquêtes non probabilistes menées en ligne à des fins commerciales, du moins aux États-Unis. La présente étude met en évidence la nécessité pour les statisticiens utilisant des échantillons non probabilistes établis à des fins commerciales de traiter les fausses réponses et les questions de représentativité, et pas uniquement ces dernières.
    Date de diffusion : 2024-06-25

  • Articles et rapports : 12-001-X202400100014
    Description : Cet article est une introduction au numéro spécial sur l’utilisation d’échantillons non probabilistes comprenant trois articles présentés lors de la 29e conférence Morris Hansen par Courtney Kennedy, Yan Li et Jean-François Beaumont.
    Date de diffusion : 2024-06-25

  • Articles et rapports : 75F0002M2024005
    Description : Des améliorations ont été apportées aux méthodes et aux sources de données utilisées dans le cadre de l'Enquête canadienne sur le revenu (ECR) pour produire les estimations du revenu et de la pauvreté, lors de la diffusion des estimations pour l'année de référence 2022. La plus importante de ces améliorations est une augmentation significative de la taille de l'échantillon pour un grand sous-ensemble du contenu de l'ECR. La méthodologie de pondération a également été améliorée et la population cible de l'ECR est passée des personnes de 16 ans et plus aux personnes de 15 ans et plus. Cet article décrit les changements apportés et présente le résultat net approximatif de ces changements sur les estimations de revenu et sur la qualité des données de l'ECR, à l'aide des données de 2021. Les changements décrits dans le présent document mettent en évidence les façons dont la qualité des données a été améliorée tout en ayant de faibles répercussions sur les principales estimations et tendances de l'ECR.
    Date de diffusion : 2024-04-26

  • Articles et rapports : 12-001-X202300200001
    Description : Lorsqu’un fournisseur de soins de santé de Medicare est soupçonné de fraude liée à la facturation, on isole une population de paiements X versés à ce fournisseur sur une certaine période. Un examinateur médical agréé peut, dans un long processus, établir le trop-payé Y = X - (montant justifié par la preuve) pour chaque paiement. En temps normal, il y aura trop de paiements dans une population pour que chacun soit examiné avec soin, aussi prélève-t-on un échantillon probabiliste. Les trop-payés de cet échantillon servent alors à calculer une borne inférieure de l’intervalle de confiance de 90 % pour le trop-payé total de cette population. La borne correspond au montant exigé en recouvrement auprès du fournisseur. Malheureusement, les méthodes classiques de calcul de cette borne ne permettent parfois pas de dégager le niveau de confiance de 90 %, plus particulièrement lorsqu’on utilise un échantillon stratifié.

    Dans le présent document, nous présentons et décrivons 166 échantillons épurés tirés des enquêtes au sujet de l’intégrité de Medicare qui comportent 156 populations de paiements correspondantes. Les 7 588 paires échantillonnées (Y, X) indiquent 1) que les vérifications réalisées au sein de Medicare affichent des taux d’erreur élevés : plus de 76 % des paiements en question sont considérés comme étant des erreurs. Elles indiquent aussi 2) que les configurations de ces échantillons vont dans le sens d’un modèle de mélange « tout ou rien » pour (Y, X) qui est déjà défini dans les études spécialisées. Nous analysons des procédures de test de Monte Carlo fondées sur un modèle pour les plans de sondage de Medicare, ainsi que des méthodes de stratification fondées sur les moments anticipés du modèle. Pour la viabilité (atteinte d’un niveau de confiance de 90 %), nous définissons dans le présent article une nouvelle méthode de stratification qui rivalise avec les meilleures parmi de nombreuses méthodes existantes et qui semble moins sensible au choix de paramètres d’exploitation. Pour ce qui est du recouvrement des trop-payés (ce qui équivaut à une mesure de la précision), la nouvelle méthode se compare aussi aux meilleures parmi les nombreuses méthodes expérimentées. Malheureusement, aucun algorithme de stratification mis à l’essai ne s’est révélé viable pour plus de la moitié environ des 104 populations visées par l’essai.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300200002
    Description : Il est essentiel de pouvoir quantifier l’exactitude (biais, variance) des résultats publiés dans les statistiques officielles. Dans ces dernières, les résultats sont presque toujours divisés en sous-populations selon une variable de classification, comme le revenu moyen par catégorie de niveau de scolarité. Ces résultats sont également appelés « statistiques de domaine ». Dans le présent article, nous nous limitons aux variables de classification binaire. En pratique, des erreurs de classification se produisent et contribuent au biais et à la variance des statistiques de domaine. Les méthodes analytiques et numériques servant actuellement à estimer cet effet présentent deux inconvénients. Le premier inconvénient est qu’elles exigent que les probabilités de classification erronée soient connues au préalable et le deuxième est que les estimations du biais et de la variance sont elles-mêmes biaisées. Dans le présent article, nous présentons une nouvelle méthode, un modèle de mélange gaussien estimé par un algorithme espérance-maximisation (EM) combiné à un bootstrap, appelé « méthode bootstrap EM ». Cette nouvelle méthode n’exige pas que les probabilités de classification erronée soient connues au préalable, bien qu’elle soit plus efficace quand on utilise un petit échantillon de vérification qui donne une valeur de départ pour les probabilités de classification erronée dans l’algorithme EM. Nous avons comparé le rendement de la nouvelle méthode et celui des méthodes numériques actuellement disponibles, à savoir la méthode bootstrap et la méthode SIMEX. Des études antérieures ont démontré que pour les paramètres non linéaires, le bootstrap donne de meilleurs résultats que les expressions analytiques. Pour presque toutes les conditions mises à l’essai, les estimations du biais et de la variance obtenues par la méthode bootstrap EM sont plus proches de leurs vraies valeurs que celles obtenues par les méthodes bootstrap et SIMEX. Nous terminons l’article par une discussion sur les résultats et d’éventuels prolongements de la méthode.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300200005
    Description : Le sous-dénombrement de la population est un des principaux obstacles avec lesquels il faut composer lors de l’analyse statistique d’échantillons d’enquête non probabilistes. Nous considérons dans le présent article deux scénarios types de sous-dénombrement, à savoir le sous-dénombrement stochastique et le sous-dénombrement déterministe. Nous soutenons que l’on peut appliquer directement les méthodes d’estimation existantes selon l’hypothèse de positivité sur les scores de propension (c’est-à-dire les probabilités de participation) pour traiter le scénario de sous-dénombrement stochastique. Nous étudions des stratégies visant à atténuer les biais lors de l’estimation de la moyenne de la population cible selon le sous-dénombrement déterministe. Plus précisément, nous examinons une méthode de population fractionnée (split-population method) fondée sur une formulation d’enveloppe convexe et nous construisons des estimateurs menant à des biais réduits. Un estimateur doublement robuste peut être construit si un sous-échantillon de suivi de l’enquête probabiliste de référence comportant des mesures sur la variable étudiée devient réalisable. Le rendement de six estimateurs concurrents est examiné au moyen d’une étude par simulations, et des questions nécessitant un examen plus approfondi sont brièvement abordées.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300200008
    Description : Dans cet article, nous utilisons une version légèrement simplifiée de la méthode de Fickus, Mixon et Poteet (2013) pour définir une paramétrisation maniable des noyaux des plans de sondages déterminantaux à probabilités d’inclusion simple fixées. Pour des valeurs spécifiques du paramètre multidimensionnel, nous retrouvons une matrice de la famille PII de Loonis et Mary (2019). Nous conjecturons que, parmi les plans déterminantaux à probabilités d’inclusion fixées la variance minimale de l’estimateur d’Horvitz et Thompson (1952) d’une variable d’intérêt, s’exprime en fonction de PII. Nous mettons à disposition des programmes R expérimentaux facilitant l’appropriation de différentes notions présentées dans l’article, et dont certaines sont qualifiées de non-triviales par Fickus et coll. (2013). Une version longue de cet article, contenant les démonstrations et une présentation plus détaillée des plans déterminantaux, est également mise à disposition.
    Date de diffusion : 2024-01-03
Stats en bref (1)

Stats en bref (1) ((1 résultat))

  • Stats en bref : 45-20-00032022002
    Description :

    Le Canada est une société plurielle, ayant un patrimoine culturel d’une grande richesse. Les divers peuples issus des quatre coins du monde ont fait du Canada une terre d’accueil. Néanmoins, même dans une société aussi plurielle que la nôtre, il peut être difficile d’éliminer toutes les formes de discrimination. Dans cet épisode, nous avons voulu porter un regard critique sur la manière dont les préjugés qui nourrissent le racisme systémique peuvent avoir un effet même sur les éléments les plus neutres?: nos données. Les données ont la réputation de refléter la réalité de la manière la plus factuelle possible, mais est-ce toujours le cas? Nous nous sommes aussi questionnés sur le rôle que peuvent jouer les données dans la lutte pour une société canadienne plus équitable.

    Joignez-vous à nos invités, Sarah Messou-Ghelazzi, agente de communication pour Statistique Canada, Filsan Hujaleh, analyste au Centre d’analyse des données sociales et d’innovation à Statistique Canada, Jeff Latimer, directeur général, responsable de la Santé, Justice, Diversité et Population à Statistique Canada et Pauline Tuitoek, directrice ajointe au centre des statistiques sur le genre, la diversité et l'inclusion à Statistique Canada en explorant le rôle que les données peuvent jouer pour faire du Canada une société plus égalitaire pour tous.

    Narration : Alexandra Bassa et Chris Houle

    Date de diffusion : 2022-03-16
Articles et rapports (27)

Articles et rapports (27) (0 à 10 de 27 résultats)

  • Articles et rapports : 12-001-X202400100005
    Description : Dans cette réplique, je réponds aux commentaires des participants à l’analyse, M. Takumi Saegusa, M. Jae-Kwang Kim et Mme Yonghyun Kwon. Les commentaires de M. Saegusa, qui portent sur les différences entre l’hypothèse d’échangeabilité conditionnelle (EC) pour les inférences causales et l’hypothèse d’EC pour les inférences de population finie au moyen d’échantillons non probabilistes ainsi que sur la distinction entre les méthodes fondées sur le plan et celles fondées sur un modèle pour l’inférence de population finie au moyen d’échantillons non probabilistes, sont examinés et clarifiés dans le contexte de mon article. Je réponds ensuite au cadre exhaustif de M. Kim et de Mme Kwon pour classer les méthodes actuelles d’estimation des scores de propension (SP) en méthodes conditionnelles et inconditionnelles. J’étends leurs études par simulations pour varier les poids de sondage, permettre des modèles de SP incorrectement précisés, et inclure un estimateur supplémentaire, à savoir l’estimateur par la propension logistique ajustée mis à l’échelle (Wang, Valliant et Li (2021), noté sWBS). Dans mes simulations, on observe que l’estimateur sWBS dépasse de façon constante les autres estimateurs ou leur est comparable dans le modèle de SP incorrectement précisé. L’estimateur sWBS, ainsi que les estimateurs WBS ou ABS décrits dans mon article, ne supposent pas que les unités superposées dans les échantillons de référence probabiliste et non probabiliste sont négligeables, et ils n’exigent pas non plus l’identification des unités superposées, comme le nécessitent les estimateurs proposés par M. Kim et Mme Kwon.
    Date de diffusion : 2024-06-25

  • Articles et rapports : 12-001-X202400100008
    Description : Des échantillons non probabilistes émergent rapidement pour aborder des sujets prioritaires urgents dans différents domaines. Ces données sont actuelles, mais sujettes à un biais de sélection. Afin de réduire le biais de sélection, une littérature abondante portant sur la recherche sur les enquêtes a étudié l’utilisation de méthodes d’ajustement par le score de propension (SP) pour améliorer la représentativité de la population des échantillons non probabilistes, au moyen d’échantillons d’enquête probabilistes utilisés comme références externes. L’hypothèse d’échangeabilité conditionnelle (EC) est l’une des principales hypothèses requises par les méthodes d’ajustement fondées sur le SP. Dans le présent article, j’examine d’abord la validité de l’hypothèse de l’EC conditionnellement à plusieurs estimations de scores d’équilibrage qui sont utilisées dans les méthodes d’ajustement fondées sur le SP existantes. Un score d’équilibrage adaptatif est proposé aux fins d’estimation sans biais des moyennes de population. Les estimateurs de la moyenne de population selon les trois hypothèses de l’EC sont évalués au moyen d’études de simulation de Monte Carlo et illustrés au moyen de l’étude sur la séroprévalence du SRAS-CoV-2 des National Institutes of Health pour estimer la proportion d’adultes aux États-Unis qui présentaient des anticorps de la COVID-19 du 1er avril au 4 août 2020.
    Date de diffusion : 2024-06-25

  • Articles et rapports : 12-001-X202400100009
    Description : Nos commentaires répondent aux points de discussion soulevés par Sen, Brick et Elliott. Nous évaluons les avantages et les inconvénients potentiels de la suggestion de Sen de recourir à l’apprentissage automatique pour repérer les faux répondants au moyen d’interactions et de combinaisons improbables de variables. Nous rejoignons la réflexion de Brick sur l’incidence des faux répondants sur les enquêtes non probabilistes menées à des fins commerciales. Enfin, nous examinons les solutions proposées par Elliott pour relever le défi exposé dans notre étude.
    Date de diffusion : 2024-06-25

  • Articles et rapports : 12-001-X202400100013
    Description : Les méthodes statistiques élaborées pour les échantillons non probabilistes sont généralement axées sur la sélection non aléatoire comme principale raison pour laquelle les répondants à l’enquête peuvent différer systématiquement de la population cible. Selon une théorie bien établie, dans ces cas, si elle est conditionnée sur des variables auxiliaires nécessaires, la sélection peut devenir ignorable et les estimations d’enquête sont alors sans biais. Toutefois, cette logique repose sur l’hypothèse selon laquelle l’erreur de mesure est inexistante ou faible. Dans la présente étude, nous testons cette hypothèse de deux façons. Premièrement, nous utilisons une vaste étude d’étalonnage qui permet de déterminer les sous-groupes pour lesquels les erreurs dans les échantillons d’enquêtes non probabilistes menées en ligne à des fins commerciales sont particulièrement grandes d’une manière improbable en raison des effets de sélection. Nous présentons ensuite une étude de suivi qui porte sur une des causes des grandes erreurs : les fausses réponses (c’est-à-dire les réponses d’enquête qui sont frauduleuses, malveillantes ou non sincères d’une autre manière). Nous constatons que les fausses réponses, en particulier chez les répondants qui déclarent être jeunes ou d’origine hispanique, constituent un problème important et répandu dans les échantillons d’enquêtes non probabilistes menées en ligne à des fins commerciales, du moins aux États-Unis. La présente étude met en évidence la nécessité pour les statisticiens utilisant des échantillons non probabilistes établis à des fins commerciales de traiter les fausses réponses et les questions de représentativité, et pas uniquement ces dernières.
    Date de diffusion : 2024-06-25

  • Articles et rapports : 12-001-X202400100014
    Description : Cet article est une introduction au numéro spécial sur l’utilisation d’échantillons non probabilistes comprenant trois articles présentés lors de la 29e conférence Morris Hansen par Courtney Kennedy, Yan Li et Jean-François Beaumont.
    Date de diffusion : 2024-06-25

  • Articles et rapports : 75F0002M2024005
    Description : Des améliorations ont été apportées aux méthodes et aux sources de données utilisées dans le cadre de l'Enquête canadienne sur le revenu (ECR) pour produire les estimations du revenu et de la pauvreté, lors de la diffusion des estimations pour l'année de référence 2022. La plus importante de ces améliorations est une augmentation significative de la taille de l'échantillon pour un grand sous-ensemble du contenu de l'ECR. La méthodologie de pondération a également été améliorée et la population cible de l'ECR est passée des personnes de 16 ans et plus aux personnes de 15 ans et plus. Cet article décrit les changements apportés et présente le résultat net approximatif de ces changements sur les estimations de revenu et sur la qualité des données de l'ECR, à l'aide des données de 2021. Les changements décrits dans le présent document mettent en évidence les façons dont la qualité des données a été améliorée tout en ayant de faibles répercussions sur les principales estimations et tendances de l'ECR.
    Date de diffusion : 2024-04-26

  • Articles et rapports : 12-001-X202300200001
    Description : Lorsqu’un fournisseur de soins de santé de Medicare est soupçonné de fraude liée à la facturation, on isole une population de paiements X versés à ce fournisseur sur une certaine période. Un examinateur médical agréé peut, dans un long processus, établir le trop-payé Y = X - (montant justifié par la preuve) pour chaque paiement. En temps normal, il y aura trop de paiements dans une population pour que chacun soit examiné avec soin, aussi prélève-t-on un échantillon probabiliste. Les trop-payés de cet échantillon servent alors à calculer une borne inférieure de l’intervalle de confiance de 90 % pour le trop-payé total de cette population. La borne correspond au montant exigé en recouvrement auprès du fournisseur. Malheureusement, les méthodes classiques de calcul de cette borne ne permettent parfois pas de dégager le niveau de confiance de 90 %, plus particulièrement lorsqu’on utilise un échantillon stratifié.

    Dans le présent document, nous présentons et décrivons 166 échantillons épurés tirés des enquêtes au sujet de l’intégrité de Medicare qui comportent 156 populations de paiements correspondantes. Les 7 588 paires échantillonnées (Y, X) indiquent 1) que les vérifications réalisées au sein de Medicare affichent des taux d’erreur élevés : plus de 76 % des paiements en question sont considérés comme étant des erreurs. Elles indiquent aussi 2) que les configurations de ces échantillons vont dans le sens d’un modèle de mélange « tout ou rien » pour (Y, X) qui est déjà défini dans les études spécialisées. Nous analysons des procédures de test de Monte Carlo fondées sur un modèle pour les plans de sondage de Medicare, ainsi que des méthodes de stratification fondées sur les moments anticipés du modèle. Pour la viabilité (atteinte d’un niveau de confiance de 90 %), nous définissons dans le présent article une nouvelle méthode de stratification qui rivalise avec les meilleures parmi de nombreuses méthodes existantes et qui semble moins sensible au choix de paramètres d’exploitation. Pour ce qui est du recouvrement des trop-payés (ce qui équivaut à une mesure de la précision), la nouvelle méthode se compare aussi aux meilleures parmi les nombreuses méthodes expérimentées. Malheureusement, aucun algorithme de stratification mis à l’essai ne s’est révélé viable pour plus de la moitié environ des 104 populations visées par l’essai.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300200002
    Description : Il est essentiel de pouvoir quantifier l’exactitude (biais, variance) des résultats publiés dans les statistiques officielles. Dans ces dernières, les résultats sont presque toujours divisés en sous-populations selon une variable de classification, comme le revenu moyen par catégorie de niveau de scolarité. Ces résultats sont également appelés « statistiques de domaine ». Dans le présent article, nous nous limitons aux variables de classification binaire. En pratique, des erreurs de classification se produisent et contribuent au biais et à la variance des statistiques de domaine. Les méthodes analytiques et numériques servant actuellement à estimer cet effet présentent deux inconvénients. Le premier inconvénient est qu’elles exigent que les probabilités de classification erronée soient connues au préalable et le deuxième est que les estimations du biais et de la variance sont elles-mêmes biaisées. Dans le présent article, nous présentons une nouvelle méthode, un modèle de mélange gaussien estimé par un algorithme espérance-maximisation (EM) combiné à un bootstrap, appelé « méthode bootstrap EM ». Cette nouvelle méthode n’exige pas que les probabilités de classification erronée soient connues au préalable, bien qu’elle soit plus efficace quand on utilise un petit échantillon de vérification qui donne une valeur de départ pour les probabilités de classification erronée dans l’algorithme EM. Nous avons comparé le rendement de la nouvelle méthode et celui des méthodes numériques actuellement disponibles, à savoir la méthode bootstrap et la méthode SIMEX. Des études antérieures ont démontré que pour les paramètres non linéaires, le bootstrap donne de meilleurs résultats que les expressions analytiques. Pour presque toutes les conditions mises à l’essai, les estimations du biais et de la variance obtenues par la méthode bootstrap EM sont plus proches de leurs vraies valeurs que celles obtenues par les méthodes bootstrap et SIMEX. Nous terminons l’article par une discussion sur les résultats et d’éventuels prolongements de la méthode.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300200005
    Description : Le sous-dénombrement de la population est un des principaux obstacles avec lesquels il faut composer lors de l’analyse statistique d’échantillons d’enquête non probabilistes. Nous considérons dans le présent article deux scénarios types de sous-dénombrement, à savoir le sous-dénombrement stochastique et le sous-dénombrement déterministe. Nous soutenons que l’on peut appliquer directement les méthodes d’estimation existantes selon l’hypothèse de positivité sur les scores de propension (c’est-à-dire les probabilités de participation) pour traiter le scénario de sous-dénombrement stochastique. Nous étudions des stratégies visant à atténuer les biais lors de l’estimation de la moyenne de la population cible selon le sous-dénombrement déterministe. Plus précisément, nous examinons une méthode de population fractionnée (split-population method) fondée sur une formulation d’enveloppe convexe et nous construisons des estimateurs menant à des biais réduits. Un estimateur doublement robuste peut être construit si un sous-échantillon de suivi de l’enquête probabiliste de référence comportant des mesures sur la variable étudiée devient réalisable. Le rendement de six estimateurs concurrents est examiné au moyen d’une étude par simulations, et des questions nécessitant un examen plus approfondi sont brièvement abordées.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300200008
    Description : Dans cet article, nous utilisons une version légèrement simplifiée de la méthode de Fickus, Mixon et Poteet (2013) pour définir une paramétrisation maniable des noyaux des plans de sondages déterminantaux à probabilités d’inclusion simple fixées. Pour des valeurs spécifiques du paramètre multidimensionnel, nous retrouvons une matrice de la famille PII de Loonis et Mary (2019). Nous conjecturons que, parmi les plans déterminantaux à probabilités d’inclusion fixées la variance minimale de l’estimateur d’Horvitz et Thompson (1952) d’une variable d’intérêt, s’exprime en fonction de PII. Nous mettons à disposition des programmes R expérimentaux facilitant l’appropriation de différentes notions présentées dans l’article, et dont certaines sont qualifiées de non-triviales par Fickus et coll. (2013). Une version longue de cet article, contenant les démonstrations et une présentation plus détaillée des plans déterminantaux, est également mise à disposition.
    Date de diffusion : 2024-01-03
Revues et périodiques (0)

Revues et périodiques (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :