Recherche par mot-clé

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Type

1 facets displayed. 0 facets selected.

Année de publication

11 facets displayed. 0 facets selected.

Géographie

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (16)

Tout (16) (0 à 10 de 16 résultats)

  • Articles et rapports : 11-522-X202100100009
    Description :

    Le recours à des données auxiliaires pour améliorer l’efficacité d’estimateurs de totaux et de moyennes au moyen d’une procédure d’estimation d’enquête assistée par un modèle de régression a reçu une attention considérable ces dernières années. Des estimateurs par la régression généralisée (GREG), fondés sur un modèle de régression linéaire, sont actuellement utilisés dans le cadre d’enquêtes auprès d’établissements, à Statistique Canada et au sein de plusieurs autres organismes de statistiques. Les estimateurs GREG utilisent des poids d’enquête communs à toutes les variables d’étude et un calage aux totaux de population de variables auxiliaires. De plus en plus de variables auxiliaires sont disponibles et certaines peuvent être superflues. Cela mène à des poids GREG instables lorsque toutes les variables auxiliaires disponibles, y compris les interactions parmi les variables catégoriques, sont utilisées dans le modèle de régression linéaire. En revanche, de nouvelles méthodes d’apprentissage automatique, comme les arbres de régression et la méthode LASSO, sélectionnent automatiquement des variables auxiliaires significatives et mènent à des poids non négatifs stables et à d’éventuels gains d’efficacité par rapport à la méthode GREG. Dans cet article, une étude par simulations, fondée sur un ensemble de données-échantillon d’une enquête-entreprise réelle traité comme la population cible, est menée afin d’examiner le rendement relatif de la méthode GREG, d’arbres de régression et de la méthode LASSO sur le plan de l’efficacité des estimateurs.

    Mots-clés : inférence assistée par modèle; estimation par calage; sélection du modèle; estimateur par la régression généralisée.

    Date de diffusion : 2021-10-29

  • Articles et rapports : 12-001-X201600114541
    Description :

    Le présent travail a pour objet de comparer des estimateurs non paramétriques pour des fonctions de répartition de populations finies fondés sur deux types de valeurs prédites, à savoir celles données par l’estimateur bien connu de Kuo et une version modifiée de ces dernières, qui intègre une estimation non paramétrique de la fonction de régression à la moyenne. Pour chaque type de valeurs prédites, nous considérons l’estimateur fondé sur un modèle correspondant et, après incorporation des poids de sondage, l’estimateur par la différence généralisée. Nous montrons sous des conditions assez générales que le terme principal de l’erreur quadratique moyenne sous le modèle n’est pas affecté par la modification des valeurs prédites, même si cette modification réduit la vitesse de convergence pour le biais sous le modèle. Les termes d’ordre deux des erreurs quadratiques moyennes sous le modèle sont difficiles à obtenir et ne seront pas calculés dans le présent article. La question est de savoir si les valeurs prédites modifiées offrent un certain avantage du point de vue de l’approche fondée sur un modèle. Nous examinons aussi les propriétés des estimateurs sous le plan de sondage et proposons pour l’estimateur par la différence généralisée un estimateur de variance fondé sur les valeurs prédites modifiées. Enfin, nous effectuons une étude en simulation. Les résultats des simulations laissent entendre que les valeurs prédites modifiées entraînent

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201500214236
    Description :

    Nous proposons une extension assistée par modèle des mesures de l’effet de plan dû à la pondération. Nous élaborons une statistique de niveau sommaire pour différentes variables d’intérêt, sous échantillonnage à un degré et ajustement des poids par calage. La mesure de l’effet de plan que nous proposons traduit les effets conjoints d’un plan d’échantillonnage avec probabilités de sélection inégales, des poids inégaux produits en utilisant des ajustements par calage et de la force de l’association entre la variable d’analyse et les variables auxiliaires utilisées pour le calage. Nous comparons la mesure proposée aux mesures existantes de l’effet de plan au moyen de simulations en utilisant des variables semblables à celles pour lesquelles des données sont recueillies dans les enquêtes auprès des établissements et dans les enquêtes téléphoniques auprès des ménages.

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201300211871
    Description :

    Les modèles de régression sont utilisés couramment pour analyser les données d'enquête lorsque l'on souhaite déterminer quels sont les facteurs influents associés à certains indices comportementaux, sociaux ou économiques au sein d'une population cible. Lorsque des données sont recueillies au moyen d'enquêtes complexes, il convient de réexaminer les propriétés des approches classiques de sélection des variables élaborées dans des conditions i.i.d. ne faisant pas appel au sondage. Dans le présent article, nous dérivons un critère BIC fondé sur la pseudovraisemblance pour la sélection des variables dans l'analyse des données d'enquête et proposons une approche de vraisemblance pénalisée dans des conditions de sondage pour sa mise en oeuvre. Les poids de sondage sont attribués comme il convient pour corriger le biais de sélection causé par la distorsion entre l'échantillon et la population cible. Dans un cadre de randomisation conjointe, nous établissons la cohérence de la procédure de sélection proposée. Les propriétés en échantillon fini de l'approche sont évaluées par des analyses et des simulations informatiques en se servant de données provenant de la composante de l'hypertension de l'Enquête sur les personnes ayant une maladie chronique au Canada de 2009.

    Date de diffusion : 2014-01-15

  • Articles et rapports : 12-001-X200900211046
    Description :

    Nous élaborons un modèle de régression semiparamétrique pour les enquêtes complexes. Dans ce modèle, les variables explicatives sont représentées séparément sous forme d'une partie non paramétrique et d'une partie linéaire paramétrique. Les méthodes d'estimation combinent l'estimation par la régression polynomiale locale non paramétrique et l'estimation par les moindres carrés. Nous élaborons également des résultats asymptotiques, tels que la convergence et la normalité des estimateurs des coefficients de régression et des fonctions de régression. Nous recourrons à la simulation et à des exemples empiriques tirés de l'Enquête sur la santé en Ontario de 1990 pour illustrer la performance de la méthode et les propriétés des estimations.

    Date de diffusion : 2009-12-23

  • Articles et rapports : 11-522-X200600110416
    Description :

    L'application des méthodes normalisées à des données d'enquête en omettant de tenir compte des caractéristiques du plan de sondage et des redressements de la pondération peut aboutir à des inférences erronées. Les méthodes bootstrap offrent une option intéressante à l'analyste qui veut en tenir compte. Le fichier de données comprend les poids de sondage finals pour l'échantillon complet et les poids bootstrap finals connexes pour un grand nombre de répliques bootstrap, ainsi que les données observées sur les unités de l'échantillon. Nous montrons comment ce genre de fichier peut être utilisé pour analyser les données d'enquête de façon simple à l'aide d'équations d'estimation pondérées. Nous discutons aussi d'une méthode bootstrap à fonction d'estimation en une étape qui permet d'éviter certaines difficultés que pose le bootstrap.

    Date de diffusion : 2008-03-17

  • Articles et rapports : 12-001-X20070019848
    Description :

    Nous étudions certaines modifications du modèle de Cox à période unique classique afin de traiter les périodes multiples chez une même personne lorsque les données sont recueillies dans le cadre d'une enquête longitudinale à plan d'échantillonnage complexe. L'une des modifications est l'utilisation d'une approche fondée sur le plan de sondage pour l'estimation des coefficients du modèle et de leurs variances; dans l'estimation de la variance, chaque individu est traité comme une grappe de périodes, ce qui ajoute un degré supplémentaire de mise en grappes dans le plan de sondage. D'autres modifications du modèle ont pour but de rendre souple la spécification du risque de base afin de tenir compte de la dépendance différentielle éventuelle du risque à l'égard de l'ordre et de la durée des périodes successives, et de tenir compte aussi des effets différentiels des covariables sur les périodes de différents ordres. Ces approches sont illustrées en utilisant des données provenant de l'Enquête sur la dynamique du travail et du revenu (EDTR) réalisée au Canada.

    Date de diffusion : 2007-06-28

  • Articles et rapports : 11-522-X20050019473
    Description :

    La communication donnera un bref aperçu de certaines techniques, en soulignant les avantages et les inconvénients de chacune, et en insistant particulièrement sur les types de données habituellement rencontrés dans les sciences sociales. L'aperçu traitera des méthodes naïves fondées sur l'utilisation de scores pour variables latentes et sur des méthodes visant à corriger et/ou à éviter les biais associés à ce genre d'analyse. La communication se conclura par une brève description de certaine applications récentes à la régression probit et logistique avec variables prédictives latentes, et par des suggestions de futurs travaux de recherche.

    Date de diffusion : 2007-03-02

  • Articles et rapports : 11-522-X20020016723
    Description :

    Des résultats catégoriques, comme des réponses binaires, ordinales ou nominales, sont fréquents dans le domaine de la recherche par sondage. La régression logistique permet d'étudier la relation entre ce genre de variables catégoriques et un ensemble de variables explicatives. On peut utiliser la procédure LOGISTIC pour réaliser une analyse logistique des données provenant d'un échantillon aléatoire. Toutefois, cette méthode n'est pas valide si les données ont été recueillies selon d'autres plans d'échantillonnage, comme les plans de sondage complexes avec stratification, mise en grappes et/ou pondération inégale. Dans ces cas, il faut appliquer des techniques spécialisées pour produire les estimations et les erreurs types appropriées.

    La procédure SURVEYLOGISTIC expérimentale dans la version 9, introduit la régression logistique des données d'enquête dans le système SAS et offre la plupart des fonctions de la procédure LOGISTIC. L'exposé décrit la démarche méthodologique ainsi que les applications de ce nouveau logiciel.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016725
    Description :

    En 1997, le U.S. Office of Management and Budget a publié des normes révisées concernant la collecte de renseignements sur la race dans le système statistique fédéral. L'une de ces révisions consiste à permettre aux individus de choisir plus d'un groupe racial au moment de répondre à des enquêtes fédérales et à d'autres activités de collecte de données. Ce changement pose des difficultés en cas d'analyse portant sur des données recueillies en vertu de l'ancien et du nouveau système de déclaration de la race, puisque ces données ne sont pas comparables. Dans cet article, on examine les problèmes découlant de ces changements ainsi que les méthodes élaborées pour surmonter ces difficultés.

    Comme, aux termes des deux systèmes, la plupart des gens ne déclarent qu'une seule race, une solution fréquemment proposée est d'essayer d'établir un lien de transition par l'attribution d'une catégorie raciale unique à chaque personne déclarant plusieurs races en vertu du nouveau système, et de procéder aux analyses en utilisant uniquement les catégories uniraciales observées et assignées. Donc, le problème peut être considéré comme un problème de données manquantes dans lequel les valeurs pour les catégories uniraciales manquent et doivent être imputées pour les personnes qui déclarent plusieurs races.

    Le US Office of Management and Budget a proposé plusieurs méthodes simples d'établissement d'un lien pour résoudre ce problème des données manquantes. Schenker et Parker (Statistics in Medicine, à paraître) ont analysé des données provenant de la National Health Interview Survey, menée par le U.S. National Center for Health Statistics, qui permet de déclarer plusieurs races, mais demande aussi aux personnes qui le font de préciser une race principale. Ils ont constaté que l'on pourrait améliorer les méthodes d'établissement d'un lien en intégrant des covariables de niveau individuel et des covariables contextuelles dans les modèles d'établissement des liens.

    Alors que Schenker et Parker n'examinent que trois grands groupes multiraciaux, l'application décrite ici oblige à prédire les catégories uniraciales pour plusieurs petits groupes multiraciaux. Donc, des problèmes de paucité des données se posent au moment de l'ajustement des modèles d'établissement de liens. Il est possible de les résoudre en construisant des modèles combinés pour plusieurs groupes multiraciaux, c'est-à-dire en puisant de la force dans chacun d'eux. Outre ces problèmes, on étudie également d'autres questions liées à la méthodologie.

    Date de diffusion : 2004-09-13
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (16)

Analyses (16) (0 à 10 de 16 résultats)

  • Articles et rapports : 11-522-X202100100009
    Description :

    Le recours à des données auxiliaires pour améliorer l’efficacité d’estimateurs de totaux et de moyennes au moyen d’une procédure d’estimation d’enquête assistée par un modèle de régression a reçu une attention considérable ces dernières années. Des estimateurs par la régression généralisée (GREG), fondés sur un modèle de régression linéaire, sont actuellement utilisés dans le cadre d’enquêtes auprès d’établissements, à Statistique Canada et au sein de plusieurs autres organismes de statistiques. Les estimateurs GREG utilisent des poids d’enquête communs à toutes les variables d’étude et un calage aux totaux de population de variables auxiliaires. De plus en plus de variables auxiliaires sont disponibles et certaines peuvent être superflues. Cela mène à des poids GREG instables lorsque toutes les variables auxiliaires disponibles, y compris les interactions parmi les variables catégoriques, sont utilisées dans le modèle de régression linéaire. En revanche, de nouvelles méthodes d’apprentissage automatique, comme les arbres de régression et la méthode LASSO, sélectionnent automatiquement des variables auxiliaires significatives et mènent à des poids non négatifs stables et à d’éventuels gains d’efficacité par rapport à la méthode GREG. Dans cet article, une étude par simulations, fondée sur un ensemble de données-échantillon d’une enquête-entreprise réelle traité comme la population cible, est menée afin d’examiner le rendement relatif de la méthode GREG, d’arbres de régression et de la méthode LASSO sur le plan de l’efficacité des estimateurs.

    Mots-clés : inférence assistée par modèle; estimation par calage; sélection du modèle; estimateur par la régression généralisée.

    Date de diffusion : 2021-10-29

  • Articles et rapports : 12-001-X201600114541
    Description :

    Le présent travail a pour objet de comparer des estimateurs non paramétriques pour des fonctions de répartition de populations finies fondés sur deux types de valeurs prédites, à savoir celles données par l’estimateur bien connu de Kuo et une version modifiée de ces dernières, qui intègre une estimation non paramétrique de la fonction de régression à la moyenne. Pour chaque type de valeurs prédites, nous considérons l’estimateur fondé sur un modèle correspondant et, après incorporation des poids de sondage, l’estimateur par la différence généralisée. Nous montrons sous des conditions assez générales que le terme principal de l’erreur quadratique moyenne sous le modèle n’est pas affecté par la modification des valeurs prédites, même si cette modification réduit la vitesse de convergence pour le biais sous le modèle. Les termes d’ordre deux des erreurs quadratiques moyennes sous le modèle sont difficiles à obtenir et ne seront pas calculés dans le présent article. La question est de savoir si les valeurs prédites modifiées offrent un certain avantage du point de vue de l’approche fondée sur un modèle. Nous examinons aussi les propriétés des estimateurs sous le plan de sondage et proposons pour l’estimateur par la différence généralisée un estimateur de variance fondé sur les valeurs prédites modifiées. Enfin, nous effectuons une étude en simulation. Les résultats des simulations laissent entendre que les valeurs prédites modifiées entraînent

    Date de diffusion : 2016-06-22

  • Articles et rapports : 12-001-X201500214236
    Description :

    Nous proposons une extension assistée par modèle des mesures de l’effet de plan dû à la pondération. Nous élaborons une statistique de niveau sommaire pour différentes variables d’intérêt, sous échantillonnage à un degré et ajustement des poids par calage. La mesure de l’effet de plan que nous proposons traduit les effets conjoints d’un plan d’échantillonnage avec probabilités de sélection inégales, des poids inégaux produits en utilisant des ajustements par calage et de la force de l’association entre la variable d’analyse et les variables auxiliaires utilisées pour le calage. Nous comparons la mesure proposée aux mesures existantes de l’effet de plan au moyen de simulations en utilisant des variables semblables à celles pour lesquelles des données sont recueillies dans les enquêtes auprès des établissements et dans les enquêtes téléphoniques auprès des ménages.

    Date de diffusion : 2015-12-17

  • Articles et rapports : 12-001-X201300211871
    Description :

    Les modèles de régression sont utilisés couramment pour analyser les données d'enquête lorsque l'on souhaite déterminer quels sont les facteurs influents associés à certains indices comportementaux, sociaux ou économiques au sein d'une population cible. Lorsque des données sont recueillies au moyen d'enquêtes complexes, il convient de réexaminer les propriétés des approches classiques de sélection des variables élaborées dans des conditions i.i.d. ne faisant pas appel au sondage. Dans le présent article, nous dérivons un critère BIC fondé sur la pseudovraisemblance pour la sélection des variables dans l'analyse des données d'enquête et proposons une approche de vraisemblance pénalisée dans des conditions de sondage pour sa mise en oeuvre. Les poids de sondage sont attribués comme il convient pour corriger le biais de sélection causé par la distorsion entre l'échantillon et la population cible. Dans un cadre de randomisation conjointe, nous établissons la cohérence de la procédure de sélection proposée. Les propriétés en échantillon fini de l'approche sont évaluées par des analyses et des simulations informatiques en se servant de données provenant de la composante de l'hypertension de l'Enquête sur les personnes ayant une maladie chronique au Canada de 2009.

    Date de diffusion : 2014-01-15

  • Articles et rapports : 12-001-X200900211046
    Description :

    Nous élaborons un modèle de régression semiparamétrique pour les enquêtes complexes. Dans ce modèle, les variables explicatives sont représentées séparément sous forme d'une partie non paramétrique et d'une partie linéaire paramétrique. Les méthodes d'estimation combinent l'estimation par la régression polynomiale locale non paramétrique et l'estimation par les moindres carrés. Nous élaborons également des résultats asymptotiques, tels que la convergence et la normalité des estimateurs des coefficients de régression et des fonctions de régression. Nous recourrons à la simulation et à des exemples empiriques tirés de l'Enquête sur la santé en Ontario de 1990 pour illustrer la performance de la méthode et les propriétés des estimations.

    Date de diffusion : 2009-12-23

  • Articles et rapports : 11-522-X200600110416
    Description :

    L'application des méthodes normalisées à des données d'enquête en omettant de tenir compte des caractéristiques du plan de sondage et des redressements de la pondération peut aboutir à des inférences erronées. Les méthodes bootstrap offrent une option intéressante à l'analyste qui veut en tenir compte. Le fichier de données comprend les poids de sondage finals pour l'échantillon complet et les poids bootstrap finals connexes pour un grand nombre de répliques bootstrap, ainsi que les données observées sur les unités de l'échantillon. Nous montrons comment ce genre de fichier peut être utilisé pour analyser les données d'enquête de façon simple à l'aide d'équations d'estimation pondérées. Nous discutons aussi d'une méthode bootstrap à fonction d'estimation en une étape qui permet d'éviter certaines difficultés que pose le bootstrap.

    Date de diffusion : 2008-03-17

  • Articles et rapports : 12-001-X20070019848
    Description :

    Nous étudions certaines modifications du modèle de Cox à période unique classique afin de traiter les périodes multiples chez une même personne lorsque les données sont recueillies dans le cadre d'une enquête longitudinale à plan d'échantillonnage complexe. L'une des modifications est l'utilisation d'une approche fondée sur le plan de sondage pour l'estimation des coefficients du modèle et de leurs variances; dans l'estimation de la variance, chaque individu est traité comme une grappe de périodes, ce qui ajoute un degré supplémentaire de mise en grappes dans le plan de sondage. D'autres modifications du modèle ont pour but de rendre souple la spécification du risque de base afin de tenir compte de la dépendance différentielle éventuelle du risque à l'égard de l'ordre et de la durée des périodes successives, et de tenir compte aussi des effets différentiels des covariables sur les périodes de différents ordres. Ces approches sont illustrées en utilisant des données provenant de l'Enquête sur la dynamique du travail et du revenu (EDTR) réalisée au Canada.

    Date de diffusion : 2007-06-28

  • Articles et rapports : 11-522-X20050019473
    Description :

    La communication donnera un bref aperçu de certaines techniques, en soulignant les avantages et les inconvénients de chacune, et en insistant particulièrement sur les types de données habituellement rencontrés dans les sciences sociales. L'aperçu traitera des méthodes naïves fondées sur l'utilisation de scores pour variables latentes et sur des méthodes visant à corriger et/ou à éviter les biais associés à ce genre d'analyse. La communication se conclura par une brève description de certaine applications récentes à la régression probit et logistique avec variables prédictives latentes, et par des suggestions de futurs travaux de recherche.

    Date de diffusion : 2007-03-02

  • Articles et rapports : 11-522-X20020016723
    Description :

    Des résultats catégoriques, comme des réponses binaires, ordinales ou nominales, sont fréquents dans le domaine de la recherche par sondage. La régression logistique permet d'étudier la relation entre ce genre de variables catégoriques et un ensemble de variables explicatives. On peut utiliser la procédure LOGISTIC pour réaliser une analyse logistique des données provenant d'un échantillon aléatoire. Toutefois, cette méthode n'est pas valide si les données ont été recueillies selon d'autres plans d'échantillonnage, comme les plans de sondage complexes avec stratification, mise en grappes et/ou pondération inégale. Dans ces cas, il faut appliquer des techniques spécialisées pour produire les estimations et les erreurs types appropriées.

    La procédure SURVEYLOGISTIC expérimentale dans la version 9, introduit la régression logistique des données d'enquête dans le système SAS et offre la plupart des fonctions de la procédure LOGISTIC. L'exposé décrit la démarche méthodologique ainsi que les applications de ce nouveau logiciel.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016725
    Description :

    En 1997, le U.S. Office of Management and Budget a publié des normes révisées concernant la collecte de renseignements sur la race dans le système statistique fédéral. L'une de ces révisions consiste à permettre aux individus de choisir plus d'un groupe racial au moment de répondre à des enquêtes fédérales et à d'autres activités de collecte de données. Ce changement pose des difficultés en cas d'analyse portant sur des données recueillies en vertu de l'ancien et du nouveau système de déclaration de la race, puisque ces données ne sont pas comparables. Dans cet article, on examine les problèmes découlant de ces changements ainsi que les méthodes élaborées pour surmonter ces difficultés.

    Comme, aux termes des deux systèmes, la plupart des gens ne déclarent qu'une seule race, une solution fréquemment proposée est d'essayer d'établir un lien de transition par l'attribution d'une catégorie raciale unique à chaque personne déclarant plusieurs races en vertu du nouveau système, et de procéder aux analyses en utilisant uniquement les catégories uniraciales observées et assignées. Donc, le problème peut être considéré comme un problème de données manquantes dans lequel les valeurs pour les catégories uniraciales manquent et doivent être imputées pour les personnes qui déclarent plusieurs races.

    Le US Office of Management and Budget a proposé plusieurs méthodes simples d'établissement d'un lien pour résoudre ce problème des données manquantes. Schenker et Parker (Statistics in Medicine, à paraître) ont analysé des données provenant de la National Health Interview Survey, menée par le U.S. National Center for Health Statistics, qui permet de déclarer plusieurs races, mais demande aussi aux personnes qui le font de préciser une race principale. Ils ont constaté que l'on pourrait améliorer les méthodes d'établissement d'un lien en intégrant des covariables de niveau individuel et des covariables contextuelles dans les modèles d'établissement des liens.

    Alors que Schenker et Parker n'examinent que trois grands groupes multiraciaux, l'application décrite ici oblige à prédire les catégories uniraciales pour plusieurs petits groupes multiraciaux. Donc, des problèmes de paucité des données se posent au moment de l'ajustement des modèles d'établissement de liens. Il est possible de les résoudre en construisant des modèles combinés pour plusieurs groupes multiraciaux, c'est-à-dire en puisant de la force dans chacun d'eux. Outre ces problèmes, on étudie également d'autres questions liées à la méthodologie.

    Date de diffusion : 2004-09-13
Références (0)

Références (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :