Aide à l'ordre
entrées

Résultats

Tout (97)

Tout (97) (0 à 10 de 97 résultats)

  • Articles et rapports : 12-001-X202400100001
    Description : Inspirés par les deux excellentes discussions de notre article, nous offrons un regard nouveau et présentons de nouvelles avancées sur le problème de l’estimation des probabilités de participation pour des échantillons non probabilistes. Tout d’abord, nous proposons une amélioration de la méthode de Chen, Li et Wu (2020), fondée sur la théorie de la meilleure estimation linéaire sans biais, qui tire plus efficacement parti des données disponibles des échantillons probabiliste et non probabiliste. De plus, nous élaborons une méthode de vraisemblance de l’échantillon, dont l’idée est semblable à la méthode d’Elliott (2009), qui tient adéquatement compte du chevauchement entre les deux échantillons quand il est possible de l’identifier dans au moins un des échantillons. Nous utilisons la théorie de la meilleure prédiction linéaire sans biais pour traiter le scénario où le chevauchement est inconnu. Il est intéressant de constater que les deux méthodes que nous proposons coïncident quand le chevauchement est inconnu. Ensuite, nous montrons que de nombreuses méthodes existantes peuvent être obtenues comme cas particulier d’une fonction d’estimation sans biais générale. Enfin, nous concluons en formulant quelques commentaires sur l’estimation non paramétrique des probabilités de participation.
    Date de diffusion : 2024-06-25

  • Articles et rapports : 12-001-X202400100002
    Description : Nous proposons des comparaisons entre trois méthodes paramétriques d’estimation des probabilités de participation ainsi que de brefs commentaires à propos des groupes homogènes et de la poststratification.
    Date de diffusion : 2024-06-25

  • Articles et rapports : 12-001-X202400100003
    Description : Beaumont, Bosa, Brennan, Charlebois et Chu (2024) proposent des méthodes novatrices de sélection de modèles aux fins d’estimation des probabilités de participation pour des unités d’échantillonnage non probabiliste. Notre examen portera principalement sur le choix de la vraisemblance et du paramétrage du modèle, qui sont essentiels à l’efficacité des techniques proposées dans l’article. Nous examinons d’autres méthodes fondées sur la vraisemblance et la pseudo-vraisemblance pour estimer les probabilités de participation et nous présentons des simulations mettant en œuvre et comparant la sélection de variables fondée sur le critère d’information d’Akaike (AIC). Nous démontrons que, dans des scénarios pratiques importants, la méthode fondée sur une vraisemblance formulée sur les échantillons non probabiliste et probabiliste groupés qui sont observés offre un meilleur rendement que les autres solutions fondées sur la pseudo-vraisemblance. La différence de sensibilité du AIC est particulièrement grande en cas de petites tailles de l’échantillon probabiliste et de petit chevauchement dans les domaines de covariables.
    Date de diffusion : 2024-06-25

  • Articles et rapports : 12-001-X202400100004
    Description : Les organismes nationaux de statistique étudient de plus en plus la possibilité d’utiliser des échantillons non probabilistes comme solution de rechange aux échantillons probabilistes. Toutefois, il est bien connu que l’utilisation d’un échantillon non probabiliste seul peut produire des estimations présentant un biais important en raison de la nature inconnue du mécanisme de sélection sous-jacent. Il est possible de réduire le biais en intégrant les données de l’échantillon non probabiliste aux données d’un échantillon probabiliste, à condition que les deux échantillons contiennent des variables auxiliaires communes. Nous nous concentrons sur les méthodes de pondération par l’inverse de la probabilité, lesquelles consistent à modéliser la probabilité de participation à l’échantillon non probabiliste. Premièrement, nous examinons le modèle logistique ainsi que l’estimation par la méthode du pseudo maximum de vraisemblance. Nous proposons une procédure de sélection de variables en fonction d’un critère d’information d’Akaike (AIC) modifié qui tient compte de la structure des données et du plan d’échantillonnage probabiliste. Nous proposons également une méthode simple fondée sur le rang pour former des strates a posteriori homogènes. Ensuite, nous adaptons l’algorithme des arbres de classification et de régression (CART) à ce scénario d’intégration de données, tout en tenant compte, encore une fois, du plan d’échantillonnage probabiliste. Nous proposons un estimateur de la variance bootstrap qui tient compte de deux sources de variabilité : le plan d’échantillonnage probabiliste et le modèle de participation. Nos méthodes sont illustrées au moyen de données recueillies par approche participative et de données d’enquête de Statistique Canada.
    Date de diffusion : 2024-06-25

  • Articles et rapports : 12-001-X202400100014
    Description : Cet article est une introduction au numéro spécial sur l’utilisation d’échantillons non probabilistes comprenant trois articles présentés lors de la 29e conférence Morris Hansen par Courtney Kennedy, Yan Li et Jean-François Beaumont.
    Date de diffusion : 2024-06-25

  • Articles et rapports : 12-001-X202300200005
    Description : Le sous-dénombrement de la population est un des principaux obstacles avec lesquels il faut composer lors de l’analyse statistique d’échantillons d’enquête non probabilistes. Nous considérons dans le présent article deux scénarios types de sous-dénombrement, à savoir le sous-dénombrement stochastique et le sous-dénombrement déterministe. Nous soutenons que l’on peut appliquer directement les méthodes d’estimation existantes selon l’hypothèse de positivité sur les scores de propension (c’est-à-dire les probabilités de participation) pour traiter le scénario de sous-dénombrement stochastique. Nous étudions des stratégies visant à atténuer les biais lors de l’estimation de la moyenne de la population cible selon le sous-dénombrement déterministe. Plus précisément, nous examinons une méthode de population fractionnée (split-population method) fondée sur une formulation d’enveloppe convexe et nous construisons des estimateurs menant à des biais réduits. Un estimateur doublement robuste peut être construit si un sous-échantillon de suivi de l’enquête probabiliste de référence comportant des mesures sur la variable étudiée devient réalisable. Le rendement de six estimateurs concurrents est examiné au moyen d’une étude par simulations, et des questions nécessitant un examen plus approfondi sont brièvement abordées.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300200009
    Description : Dans le présent article, nous examinons la façon dont une grande base de données non probabiliste peut servir à améliorer des estimations de totaux de population finie d’un petit échantillon probabiliste grâce aux techniques d’intégration de données. Dans le cas où la variable d’intérêt est observée dans les deux sources de données, Kim et Tam (2021) ont proposé deux estimateurs convergents par rapport au plan de sondage qui peuvent être justifiés par la théorie des enquêtes à double base de sondage. D’abord, nous posons des conditions garantissant que les estimateurs en question seront plus efficaces que l’estimateur de Horvitz-Thompson lorsque l’échantillon probabiliste est sélectionné par échantillonnage de Poisson ou par échantillonnage aléatoire simple sans remise. Ensuite, nous étudions la famille des prédicteurs QR proposée par Särndal et Wright (1984) pour le cas moins courant où la base de données non probabiliste ne contient pas la variable d’intérêt, mais des variables auxiliaires. Une autre exigence est que la base non probabiliste soit vaste et puisse être couplée avec l’échantillon probabiliste. Les conditions que nous posons font que le prédicteur QR est asymptotiquement sans biais par rapport au plan de sondage. Nous calculons sa variance asymptotique sous le plan de sondage et présentons un estimateur de variance convergent par rapport au plan de sondage. Nous comparons les propriétés par rapport au plan de sondage de différents prédicteurs de la famille des prédicteurs QR dans une étude par simulation. La famille comprend un prédicteur fondé sur un modèle, un estimateur assisté par un modèle et un estimateur cosmétique. Dans nos scénarios de simulation, l’estimateur cosmétique a donné des résultats légèrement supérieurs à ceux de l’estimateur assisté par un modèle. Nos constatations sont confirmées par une application aux données de La Poste, laquelle illustre par ailleurs que les propriétés de l’estimateur cosmétique sont conservées indépendamment de l’échantillon non probabiliste observé.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300200018
    Description : En tant qu’instrument d’élaboration et d’évaluation des politiques et de recherche scientifique, sociale et économique, les enquêtes par sondage sont employées depuis plus d’un siècle. Au cours de cette période, elles ont surtout servi à recueillir des données à des fins de dénombrement. L’estimation de leurs caractéristiques a normalement reposé sur la pondération et l’échantillonnage répété ou sur une inférence fondée sur le plan de sondage. Les données-échantillons ont toutefois aussi permis de modéliser les processus inobservables qui sont source de données de population finie. Ce genre d’utilisation qualifié d’analytique consiste souvent à intégrer les données-échantillons à des données de sources secondaires.

    Dans ce cas, des solutions de rechange à l’inférence, tirant leur inspiration du grand courant de la modélisation statistique, ont largement été mises de l’avant. Le but principal était alors de permettre un échantillonnage informatif. Les enquêtes modernes par sondage visent cependant davantage les situations où les données-échantillons font en réalité partie d’un ensemble plus complexe de sources de données, toutes contenant des informations pertinentes sur le processus d’intérêt. Lorsqu’on privilégie une méthode efficace de modélisation comme celle du maximum de vraisemblance, la question consiste alors à déterminer les modifications qui devraient être apportées en fonction tant de plans de sondage complexes que de sources multiples de données. C’est là que l’emploi du principe de l’information manquante trace nettement la voie à suivre.

    Le présent document permettra de faire le point sur la façon dont ce principe a servi à résoudre les problèmes d’analyse de données « désordonnées » liés à l’échantillonnage. Il sera aussi question d’un scénario qui est une conséquence de la croissance rapide des sources de données auxiliaires aux fins de l’analyse des données d’enquête. C’est le cas où les enregistrements échantillonnés d’une source ou d’un registre accessible sont couplés aux enregistrements d’une autre source moins accessible, avec des valeurs de la variable réponse d’intérêt tirées de cette seconde source et où un résultat clé obtenu consiste en estimations sur petits domaines de cette variable de réponse pour des domaines définis sur la première source.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202200200001
    Description :

    Des arguments conceptuels et des exemples sont présentés qui suggèrent que l’approche d’inférence bayésienne pour les enquêtes permet de répondre aux défis nombreux et variés de l’analyse d’une enquête. Les modèles bayésiens qui intègrent des caractéristiques du plan de sondage complexe peuvent donner lieu à des inférences pertinentes pour l’ensemble de données observé, tout en ayant de bonnes propriétés d’échantillonnage répété. Les exemples portent essentiellement sur le rôle des variables auxiliaires et des poids d’échantillonnage, et les méthodes utilisées pour gérer lanon-réponse. Le présent article propose 10 raisons principales de favoriser l’approche d’inférence bayésienne pour les enquêtes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200002
    Description :

    Nous offrons un examen critique et quelques discussions approfondies sur des questions théoriques et pratiques à l’aide d’une analyse des échantillons non probabilistes. Nous tentons de présenter des cadres inférentiels rigoureux et des procédures statistiques valides dans le cadre d’hypothèses couramment utilisées et d’aborder les questions relatives à la justification et à la vérification d’hypothèses sur des applications pratiques. Certains progrès méthodologiques actuels sont présentés et nous mentionnons des problèmes qui nécessitent un examen plus approfondi. Alors que l’article porte sur des échantillons non probabilistes, le rôle essentiel des échantillons d’enquête probabilistes comportant des renseignements riches et pertinents sur des variables auxiliaires est mis en évidence.

    Date de diffusion : 2022-12-15
Stats en bref (0)

Stats en bref (0) (0 résultat)

Aucun contenu disponible actuellement

Articles et rapports (97)

Articles et rapports (97) (0 à 10 de 97 résultats)

  • Articles et rapports : 12-001-X202400100001
    Description : Inspirés par les deux excellentes discussions de notre article, nous offrons un regard nouveau et présentons de nouvelles avancées sur le problème de l’estimation des probabilités de participation pour des échantillons non probabilistes. Tout d’abord, nous proposons une amélioration de la méthode de Chen, Li et Wu (2020), fondée sur la théorie de la meilleure estimation linéaire sans biais, qui tire plus efficacement parti des données disponibles des échantillons probabiliste et non probabiliste. De plus, nous élaborons une méthode de vraisemblance de l’échantillon, dont l’idée est semblable à la méthode d’Elliott (2009), qui tient adéquatement compte du chevauchement entre les deux échantillons quand il est possible de l’identifier dans au moins un des échantillons. Nous utilisons la théorie de la meilleure prédiction linéaire sans biais pour traiter le scénario où le chevauchement est inconnu. Il est intéressant de constater que les deux méthodes que nous proposons coïncident quand le chevauchement est inconnu. Ensuite, nous montrons que de nombreuses méthodes existantes peuvent être obtenues comme cas particulier d’une fonction d’estimation sans biais générale. Enfin, nous concluons en formulant quelques commentaires sur l’estimation non paramétrique des probabilités de participation.
    Date de diffusion : 2024-06-25

  • Articles et rapports : 12-001-X202400100002
    Description : Nous proposons des comparaisons entre trois méthodes paramétriques d’estimation des probabilités de participation ainsi que de brefs commentaires à propos des groupes homogènes et de la poststratification.
    Date de diffusion : 2024-06-25

  • Articles et rapports : 12-001-X202400100003
    Description : Beaumont, Bosa, Brennan, Charlebois et Chu (2024) proposent des méthodes novatrices de sélection de modèles aux fins d’estimation des probabilités de participation pour des unités d’échantillonnage non probabiliste. Notre examen portera principalement sur le choix de la vraisemblance et du paramétrage du modèle, qui sont essentiels à l’efficacité des techniques proposées dans l’article. Nous examinons d’autres méthodes fondées sur la vraisemblance et la pseudo-vraisemblance pour estimer les probabilités de participation et nous présentons des simulations mettant en œuvre et comparant la sélection de variables fondée sur le critère d’information d’Akaike (AIC). Nous démontrons que, dans des scénarios pratiques importants, la méthode fondée sur une vraisemblance formulée sur les échantillons non probabiliste et probabiliste groupés qui sont observés offre un meilleur rendement que les autres solutions fondées sur la pseudo-vraisemblance. La différence de sensibilité du AIC est particulièrement grande en cas de petites tailles de l’échantillon probabiliste et de petit chevauchement dans les domaines de covariables.
    Date de diffusion : 2024-06-25

  • Articles et rapports : 12-001-X202400100004
    Description : Les organismes nationaux de statistique étudient de plus en plus la possibilité d’utiliser des échantillons non probabilistes comme solution de rechange aux échantillons probabilistes. Toutefois, il est bien connu que l’utilisation d’un échantillon non probabiliste seul peut produire des estimations présentant un biais important en raison de la nature inconnue du mécanisme de sélection sous-jacent. Il est possible de réduire le biais en intégrant les données de l’échantillon non probabiliste aux données d’un échantillon probabiliste, à condition que les deux échantillons contiennent des variables auxiliaires communes. Nous nous concentrons sur les méthodes de pondération par l’inverse de la probabilité, lesquelles consistent à modéliser la probabilité de participation à l’échantillon non probabiliste. Premièrement, nous examinons le modèle logistique ainsi que l’estimation par la méthode du pseudo maximum de vraisemblance. Nous proposons une procédure de sélection de variables en fonction d’un critère d’information d’Akaike (AIC) modifié qui tient compte de la structure des données et du plan d’échantillonnage probabiliste. Nous proposons également une méthode simple fondée sur le rang pour former des strates a posteriori homogènes. Ensuite, nous adaptons l’algorithme des arbres de classification et de régression (CART) à ce scénario d’intégration de données, tout en tenant compte, encore une fois, du plan d’échantillonnage probabiliste. Nous proposons un estimateur de la variance bootstrap qui tient compte de deux sources de variabilité : le plan d’échantillonnage probabiliste et le modèle de participation. Nos méthodes sont illustrées au moyen de données recueillies par approche participative et de données d’enquête de Statistique Canada.
    Date de diffusion : 2024-06-25

  • Articles et rapports : 12-001-X202400100014
    Description : Cet article est une introduction au numéro spécial sur l’utilisation d’échantillons non probabilistes comprenant trois articles présentés lors de la 29e conférence Morris Hansen par Courtney Kennedy, Yan Li et Jean-François Beaumont.
    Date de diffusion : 2024-06-25

  • Articles et rapports : 12-001-X202300200005
    Description : Le sous-dénombrement de la population est un des principaux obstacles avec lesquels il faut composer lors de l’analyse statistique d’échantillons d’enquête non probabilistes. Nous considérons dans le présent article deux scénarios types de sous-dénombrement, à savoir le sous-dénombrement stochastique et le sous-dénombrement déterministe. Nous soutenons que l’on peut appliquer directement les méthodes d’estimation existantes selon l’hypothèse de positivité sur les scores de propension (c’est-à-dire les probabilités de participation) pour traiter le scénario de sous-dénombrement stochastique. Nous étudions des stratégies visant à atténuer les biais lors de l’estimation de la moyenne de la population cible selon le sous-dénombrement déterministe. Plus précisément, nous examinons une méthode de population fractionnée (split-population method) fondée sur une formulation d’enveloppe convexe et nous construisons des estimateurs menant à des biais réduits. Un estimateur doublement robuste peut être construit si un sous-échantillon de suivi de l’enquête probabiliste de référence comportant des mesures sur la variable étudiée devient réalisable. Le rendement de six estimateurs concurrents est examiné au moyen d’une étude par simulations, et des questions nécessitant un examen plus approfondi sont brièvement abordées.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300200009
    Description : Dans le présent article, nous examinons la façon dont une grande base de données non probabiliste peut servir à améliorer des estimations de totaux de population finie d’un petit échantillon probabiliste grâce aux techniques d’intégration de données. Dans le cas où la variable d’intérêt est observée dans les deux sources de données, Kim et Tam (2021) ont proposé deux estimateurs convergents par rapport au plan de sondage qui peuvent être justifiés par la théorie des enquêtes à double base de sondage. D’abord, nous posons des conditions garantissant que les estimateurs en question seront plus efficaces que l’estimateur de Horvitz-Thompson lorsque l’échantillon probabiliste est sélectionné par échantillonnage de Poisson ou par échantillonnage aléatoire simple sans remise. Ensuite, nous étudions la famille des prédicteurs QR proposée par Särndal et Wright (1984) pour le cas moins courant où la base de données non probabiliste ne contient pas la variable d’intérêt, mais des variables auxiliaires. Une autre exigence est que la base non probabiliste soit vaste et puisse être couplée avec l’échantillon probabiliste. Les conditions que nous posons font que le prédicteur QR est asymptotiquement sans biais par rapport au plan de sondage. Nous calculons sa variance asymptotique sous le plan de sondage et présentons un estimateur de variance convergent par rapport au plan de sondage. Nous comparons les propriétés par rapport au plan de sondage de différents prédicteurs de la famille des prédicteurs QR dans une étude par simulation. La famille comprend un prédicteur fondé sur un modèle, un estimateur assisté par un modèle et un estimateur cosmétique. Dans nos scénarios de simulation, l’estimateur cosmétique a donné des résultats légèrement supérieurs à ceux de l’estimateur assisté par un modèle. Nos constatations sont confirmées par une application aux données de La Poste, laquelle illustre par ailleurs que les propriétés de l’estimateur cosmétique sont conservées indépendamment de l’échantillon non probabiliste observé.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202300200018
    Description : En tant qu’instrument d’élaboration et d’évaluation des politiques et de recherche scientifique, sociale et économique, les enquêtes par sondage sont employées depuis plus d’un siècle. Au cours de cette période, elles ont surtout servi à recueillir des données à des fins de dénombrement. L’estimation de leurs caractéristiques a normalement reposé sur la pondération et l’échantillonnage répété ou sur une inférence fondée sur le plan de sondage. Les données-échantillons ont toutefois aussi permis de modéliser les processus inobservables qui sont source de données de population finie. Ce genre d’utilisation qualifié d’analytique consiste souvent à intégrer les données-échantillons à des données de sources secondaires.

    Dans ce cas, des solutions de rechange à l’inférence, tirant leur inspiration du grand courant de la modélisation statistique, ont largement été mises de l’avant. Le but principal était alors de permettre un échantillonnage informatif. Les enquêtes modernes par sondage visent cependant davantage les situations où les données-échantillons font en réalité partie d’un ensemble plus complexe de sources de données, toutes contenant des informations pertinentes sur le processus d’intérêt. Lorsqu’on privilégie une méthode efficace de modélisation comme celle du maximum de vraisemblance, la question consiste alors à déterminer les modifications qui devraient être apportées en fonction tant de plans de sondage complexes que de sources multiples de données. C’est là que l’emploi du principe de l’information manquante trace nettement la voie à suivre.

    Le présent document permettra de faire le point sur la façon dont ce principe a servi à résoudre les problèmes d’analyse de données « désordonnées » liés à l’échantillonnage. Il sera aussi question d’un scénario qui est une conséquence de la croissance rapide des sources de données auxiliaires aux fins de l’analyse des données d’enquête. C’est le cas où les enregistrements échantillonnés d’une source ou d’un registre accessible sont couplés aux enregistrements d’une autre source moins accessible, avec des valeurs de la variable réponse d’intérêt tirées de cette seconde source et où un résultat clé obtenu consiste en estimations sur petits domaines de cette variable de réponse pour des domaines définis sur la première source.
    Date de diffusion : 2024-01-03

  • Articles et rapports : 12-001-X202200200001
    Description :

    Des arguments conceptuels et des exemples sont présentés qui suggèrent que l’approche d’inférence bayésienne pour les enquêtes permet de répondre aux défis nombreux et variés de l’analyse d’une enquête. Les modèles bayésiens qui intègrent des caractéristiques du plan de sondage complexe peuvent donner lieu à des inférences pertinentes pour l’ensemble de données observé, tout en ayant de bonnes propriétés d’échantillonnage répété. Les exemples portent essentiellement sur le rôle des variables auxiliaires et des poids d’échantillonnage, et les méthodes utilisées pour gérer lanon-réponse. Le présent article propose 10 raisons principales de favoriser l’approche d’inférence bayésienne pour les enquêtes.

    Date de diffusion : 2022-12-15

  • Articles et rapports : 12-001-X202200200002
    Description :

    Nous offrons un examen critique et quelques discussions approfondies sur des questions théoriques et pratiques à l’aide d’une analyse des échantillons non probabilistes. Nous tentons de présenter des cadres inférentiels rigoureux et des procédures statistiques valides dans le cadre d’hypothèses couramment utilisées et d’aborder les questions relatives à la justification et à la vérification d’hypothèses sur des applications pratiques. Certains progrès méthodologiques actuels sont présentés et nous mentionnons des problèmes qui nécessitent un examen plus approfondi. Alors que l’article porte sur des échantillons non probabilistes, le rôle essentiel des échantillons d’enquête probabilistes comportant des renseignements riches et pertinents sur des variables auxiliaires est mis en évidence.

    Date de diffusion : 2022-12-15
Revues et périodiques (0)

Revues et périodiques (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :