Recherche par mot-clé

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Type

1 facets displayed. 0 facets selected.

Année de publication

1 facets displayed. 1 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (12)

Tout (12) (0 à 10 de 12 résultats)

  • Articles et rapports : 11-522-X20020016430
    Description :

    Les méthodes de linéarisation (ou série de Taylor) sont souvent utilisées pour estimer les erreurs-types des coefficients des modèles de régression linéaire ajustés à des échantillons à phases multiples. Lorsque le nombre d'unités primaires d'échantillonnage (UPE) est grand, la linéarisation peut produire des valeurs précises d'erreurs-types dans des conditions assez générales. Par contre, si ce nombre est faible ou que la valeur d'un coefficient dépend en grande partie des données provenant d'un petit nombre d'UPE, les estimateurs par linéarisation peuvent présenter un biais négatif important.

    Dans cet article, on définit les caractéristiques de la matrice de conception, qui biaisent fortement les erreurs-types estimées par la linéarisation des coefficients de régression linéaire. De plus, on propose une nouvelle méthode, appelée linéarisation à biais réduit (LBR), qui est fondée sur des résidus ajustés pour mieux évaluer approximativement la covariance des erreurs vraies. Si les erreurs sont indépendantes et pareillement distribuées, l'estimateur de LBR est sans biais pour la variance. En outre, une étude en simulation montre que la LBR peut réduire considérablement le biais, même si les erreurs ne sont pas indépendantes et pareillement distribuées. On propose aussi d'utiliser une approximation de Satterthwaite pour déterminer le nombre de degrés de liberté de la distribution de référence à l'égard des tests et des intervalles de confiance qui ont trait aux combinaisons linéaires de coefficients fondés sur l'estimateur de LBR. On démontre que l'estimateur de la variance jackknife a aussi tendance à être biaisé dans les situations où la linéarisation est faussée. Cependant, le biais du jackknife est généralement positif. L'estimateur par linéarisation à biais réduit peut être considéré comme un compromis entre l'estimateur par linéarisation standard et celui du jackknife.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016717
    Description :

    Aux États-Unis, la National Health and Nutrition Examination Survey (NHANES) est couplée à la National Health Interview Survey (NHIS) au niveau de l'unité primaire d'échantillonnage (les mêmes comtés, mais pas nécessairement les mêmes personnes, participent aux deux enquêtes). La NHANES est réalisée auprès d'environ 5 000 personnes par année, tandis que la NHIS l'est auprès d'environ 100 000 personnes par année. Dans cet article, on expose les propriétés de modèles qui permettent d'utiliser les données de la NHIS et des données administratives comme information auxiliaire pour estimer les valeurs des variables étudiées dans le cadre de la NHANES. La méthode, qui est apparentée aux modèles régionaux de Fay Herriot (1979) et aux estimateurs par calage de Deville et Sarndal (1992), tient compte des plans de sondage dans la structure de l'erreur.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016723
    Description :

    Des résultats catégoriques, comme des réponses binaires, ordinales ou nominales, sont fréquents dans le domaine de la recherche par sondage. La régression logistique permet d'étudier la relation entre ce genre de variables catégoriques et un ensemble de variables explicatives. On peut utiliser la procédure LOGISTIC pour réaliser une analyse logistique des données provenant d'un échantillon aléatoire. Toutefois, cette méthode n'est pas valide si les données ont été recueillies selon d'autres plans d'échantillonnage, comme les plans de sondage complexes avec stratification, mise en grappes et/ou pondération inégale. Dans ces cas, il faut appliquer des techniques spécialisées pour produire les estimations et les erreurs types appropriées.

    La procédure SURVEYLOGISTIC expérimentale dans la version 9, introduit la régression logistique des données d'enquête dans le système SAS et offre la plupart des fonctions de la procédure LOGISTIC. L'exposé décrit la démarche méthodologique ainsi que les applications de ce nouveau logiciel.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016725
    Description :

    En 1997, le U.S. Office of Management and Budget a publié des normes révisées concernant la collecte de renseignements sur la race dans le système statistique fédéral. L'une de ces révisions consiste à permettre aux individus de choisir plus d'un groupe racial au moment de répondre à des enquêtes fédérales et à d'autres activités de collecte de données. Ce changement pose des difficultés en cas d'analyse portant sur des données recueillies en vertu de l'ancien et du nouveau système de déclaration de la race, puisque ces données ne sont pas comparables. Dans cet article, on examine les problèmes découlant de ces changements ainsi que les méthodes élaborées pour surmonter ces difficultés.

    Comme, aux termes des deux systèmes, la plupart des gens ne déclarent qu'une seule race, une solution fréquemment proposée est d'essayer d'établir un lien de transition par l'attribution d'une catégorie raciale unique à chaque personne déclarant plusieurs races en vertu du nouveau système, et de procéder aux analyses en utilisant uniquement les catégories uniraciales observées et assignées. Donc, le problème peut être considéré comme un problème de données manquantes dans lequel les valeurs pour les catégories uniraciales manquent et doivent être imputées pour les personnes qui déclarent plusieurs races.

    Le US Office of Management and Budget a proposé plusieurs méthodes simples d'établissement d'un lien pour résoudre ce problème des données manquantes. Schenker et Parker (Statistics in Medicine, à paraître) ont analysé des données provenant de la National Health Interview Survey, menée par le U.S. National Center for Health Statistics, qui permet de déclarer plusieurs races, mais demande aussi aux personnes qui le font de préciser une race principale. Ils ont constaté que l'on pourrait améliorer les méthodes d'établissement d'un lien en intégrant des covariables de niveau individuel et des covariables contextuelles dans les modèles d'établissement des liens.

    Alors que Schenker et Parker n'examinent que trois grands groupes multiraciaux, l'application décrite ici oblige à prédire les catégories uniraciales pour plusieurs petits groupes multiraciaux. Donc, des problèmes de paucité des données se posent au moment de l'ajustement des modèles d'établissement de liens. Il est possible de les résoudre en construisant des modèles combinés pour plusieurs groupes multiraciaux, c'est-à-dire en puisant de la force dans chacun d'eux. Outre ces problèmes, on étudie également d'autres questions liées à la méthodologie.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016729
    Description :

    Dans la grande majorité, sinon la totalité, des enquêtes par sondage, on doit faire face au problème de données manquantes. Les données manquantes sont habituellement causées par la non-réponse (le refus de participer à l'enquête ou l'intervieweur n'a pas été capable de rencontrer le répondant), mais elles peuvent aussi être créées à l'étape de la vérification des données pour résoudre des problèmes d'incohérences ou de réponses suspectes. La présence de données manquantes (non-réponse) entraîne généralement du biais et de l'incertitude dans les estimations. Pour surmonter cette difficulté, l'utilisation appropriée de toute l'information auxiliaire disponible permet de réduire au maximum le biais et la variance dus à la non-réponse. Dans le cadre de cette présentation, on définit le problème et on décrit la méthode sur laquelle le SEVANI est basé, puis on examine les utilisations possibles du système. En dernier lieu, on présente quelques exemples basés sur des données réelles illustrant la théorie en pratique.

    En pratique, il est très difficile d'estimer le biais dû à la non-réponse. Il est cependant possible d'évaluer la variance due à la non-réponse en supposant que le biais est négligeable. Au cours de la dernière décennie, plusieurs méthodes ont d'ailleurs été proposées pour estimer cette variance, dont certaines ont été implantées dans le Système d'estimation de la variance due à la non-réponse et à l'imputation (SEVANI).

    La méthode utilisée pour développer le SEVANI est basée sur la théorie de l'échantillonnage à deux phases où l'on suppose que la deuxième phase de sélection est la non-réponse. Toutefois, contrairement à l'échantillonnage à deux phases, un modèle d'imputation ou de non-réponse est requis pour l'estimation de la variance. Le SEVANI suppose également que la non-réponse est traitée en repondérant les unités répondantes ou en imputant les valeurs manquantes. On étudie trois techniques d'imputation : l'imputation d'une variable auxiliaire, l'imputation par la régression (déterministe ou aléatoire) et l'imputation par le plus proche voisin.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016731
    Description :

    En recherche behavioriste, diverses techniques sont utilisées pour prédire les scores des répondants pour des facteurs ou des concepts que l'on ne peut observer directement. La satisfaction concernant l'emploi, le stress au travail, l'aptitude à poursuivre des études de deuxième ou de troisième cycle et les aptitudes mathématiques des enfants en sont des exemples. Les méthodes utilisées couramment pour modéliser ce genre de concepts incluent l'analyse factorielle, la modélisation d'équation structurelle, les échelles psychométriques classiques et la théorie de la réponse à l'item, et, pour chaque méthode, il existe souvent plusieurs stratégies distinctes permettant de produire des scores individuels. Cependant, les chercheurs se satisfont rarement de simples mesures de ces concepts. Souvent, ils utilisent des scores dérivés en tant que variables dépendantes ou indépendantes dans la régression multiple, l'analyse de la variance et de nombreuses autres procédures multivariées. Bien que ces applications de scores dérivés puissent produire des estimations biaisées des paramètres des modèles structuraux, ces difficultés sont mal comprises et souvent ignorées. Nous passerons en revue les publications qui traitent de la question, en mettant l'accent sur les méthodes de la TRI, en vue de déterminer quels sont les domaines problématiques et de formuler des questions à étudier dans l'avenir.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016735
    Description :

    Dans le cadre du Recensement de la population de 2001, on a eu recours à l'estimation par calage ou par régression pour calculer un ensemble unique de coefficients de pondération au niveau du ménage pouvant être utilisé pour le calcul de toutes les estimations du recensement fondées sur les données recueillies auprès d'un échantillon national de 1 ménage sur 5 représentant plus de deux millions de ménages. Le nombre de variables auxiliaires étant très élevé, nous n'avons pu utiliser qu'un sous ensemble d'entre elles. Sinon, certains coefficients de pondération auraient été inférieurs à un, voire même négatifs. On a utilisé une méthode de sélection ascendante pour écarter les variables auxiliaires qui rendaient les coefficients de pondération inférieurs à un ou qui exigeaient un grand nombre de conditions pour qu'il y ait inversion de la matrice des poids de calage. En outre, nous avons procédé à deux ajustements de calage pour obtenir une bonne concordance entre les chiffres auxiliaires de population et les estimations pour les petites régions. Avant 2001, on utilisait l'estimateur par régression généralisée (GREG) pour la projection, et les coefficients de pondération ne pouvaient pas être nuls. Pour le Recensement de 2001, on est passé à un estimateur par régression pseudo optimal qui a permis de garder un plus grand nombre de variables auxiliaires tout en exigeant que les coefficients de pondération soient égaux ou supérieurs à un.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016745
    Description :

    L'attrait du plan expérimental de discontinuité de la régression tient à sa grande similarité avec un plan expérimental normal. Cependant, son applicabilité est limitée, puisqu'il n'est pas très fréquent que les unités soient affectées au groupe subissant le traitement d'après une mesure observable (par l'analyste) avant le programme. En outre, il permet uniquement de déterminer l'effet moyen sur une sous population très spécifique. Dans cet article, on montre que le plan expérimental de discontinuité de la régression peut être généralisé facilement aux cas où l'admissibilité des unités est établie d'après une mesure observable avant le programme et où est permise l'autosélection libre des unités admissibles dans le programme. Ces conditions s'avèrent aussi fort pratiques pour la construction d'un test de spécification sur des estimateurs non expérimentaux conventionnels de l'effet moyen du programme. On décrit explicitement les exigences concernant les données.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016749
    Description :

    L'échantillonnage est une branche de la statistique qui a pris du temps avant de tirer profit des méthodes de régression souples. Dans ce document technique, on examine deux approches pour tenter l'application de ces méthodes de régression : adapter les techniques aux plans d'enquêtes complexes qui sont utilisés ou échantillonner les données d'enquêtes de sorte que les techniques normalisées leur soient applicables.

    En adoptant la première approche, on présente des techniques qui tiennent compte de la structure complexe des données pour le lissage de nuage de points ainsi que des modèles additifs. L'utilisation de la méthode des moindres carrés pénalisés dans le contexte de l'échantillonnage est étudiée à titre d'outil d'analyse d'une tendance générale de la population finie. On se concentre sur la régression lisse avec modèle d'erreur normale. L'abondance des liens entre covariables dans le cas des enquêtes à grande échelle donne lieu à l'application de lisseurs de nuage de points pour procéder au lissage de la moyenne. On constate que l'estimation des courbes lissées (par exemple, les splines de lissage) ne dépend du plan d'échantillonnage que par les poids d'échantillonnage, ce qui signifie qu'un logiciel type peut être utilisé pour l'estimation. Pour ces courbes, l'inférence présente plus de difficultés à cause des corrélations induites par le plan d'échantillonnage. On propose et on illustre des tests qui tiennent compte du plan d'échantillonnage. Les exemples donnés, inspirés de l'Enquête sur la santé en Ontario, comprennent le lissage de nuage de points, les modèles additifs et les tests diagnostiques du modèle. Pour résoudre le problème au moyen d'un échantillonnage approprié du fichier de données d'enquêtes, on traite de certains obstacles à surmonter.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 12-001-X20040016991
    Description :

    En échantillonnage, on utilise souvent la linéarisation de Taylor pour obtenir des estimateurs de variance pour des estimateurs par calage de totaux et de paramètres non linéaires de population finie (ou recensement), comme des ratios, ou des coefficients de régression et de corrélation, qui peuvent être exprimés sous forme de fonctions lisses de totaux. La linéarisation de Taylor est généralement applicable à tout plan d'échantillonnage, mais elle peut produire de multiples estimateurs de variance qui sont asymptotiquement sans biais par rapport au plan de sondage sous échantillonnage répété. Pour choisir lequel de ces estimateurs utiliser, il faut tenir compte d'autres critères, comme i) l'absence approximative de biais pour la variance par rapport au modèle de l'estimateur sous un modèle hypothétique, et ii) la validité sous l'échantillonnage répété conditionnel. Dans le présent article, nous proposons une nouvelle approche pour calculer les estimateurs de variance par linéarisation de Taylor. Elle mène directement à un estimateur de variance qui satisfait aux critères susmentionnés, du moins dans un nombre important de cas. Nous appliquons la méthode à divers problèmes, qui englobent les estimateurs d'un total, ainsi que d'autres estimateurs définis explicitement ou implicitement comme solutions d'équations d'estimation. En particulier, nous étudions les estimateurs des paramètres de régression logistique avec poids calés. Cette étude nous mène à un nouvel estimateur de la variance pour une classe générale d'estimateurs par calage qui inclut l'estimateur par la méthode itérative du quotient (raking ratio) généralisée et les estimateurs par régression généralisée. Nous étendons la méthode proposée à l'échantillonnage à deux phases pour obtenir un estimateur de variance qui utilise plus complètement les données de l'échantillon de première phase que les estimateurs de variance par linéarisation classiques.

    Date de diffusion : 2004-07-14
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (12)

Analyses (12) (0 à 10 de 12 résultats)

  • Articles et rapports : 11-522-X20020016430
    Description :

    Les méthodes de linéarisation (ou série de Taylor) sont souvent utilisées pour estimer les erreurs-types des coefficients des modèles de régression linéaire ajustés à des échantillons à phases multiples. Lorsque le nombre d'unités primaires d'échantillonnage (UPE) est grand, la linéarisation peut produire des valeurs précises d'erreurs-types dans des conditions assez générales. Par contre, si ce nombre est faible ou que la valeur d'un coefficient dépend en grande partie des données provenant d'un petit nombre d'UPE, les estimateurs par linéarisation peuvent présenter un biais négatif important.

    Dans cet article, on définit les caractéristiques de la matrice de conception, qui biaisent fortement les erreurs-types estimées par la linéarisation des coefficients de régression linéaire. De plus, on propose une nouvelle méthode, appelée linéarisation à biais réduit (LBR), qui est fondée sur des résidus ajustés pour mieux évaluer approximativement la covariance des erreurs vraies. Si les erreurs sont indépendantes et pareillement distribuées, l'estimateur de LBR est sans biais pour la variance. En outre, une étude en simulation montre que la LBR peut réduire considérablement le biais, même si les erreurs ne sont pas indépendantes et pareillement distribuées. On propose aussi d'utiliser une approximation de Satterthwaite pour déterminer le nombre de degrés de liberté de la distribution de référence à l'égard des tests et des intervalles de confiance qui ont trait aux combinaisons linéaires de coefficients fondés sur l'estimateur de LBR. On démontre que l'estimateur de la variance jackknife a aussi tendance à être biaisé dans les situations où la linéarisation est faussée. Cependant, le biais du jackknife est généralement positif. L'estimateur par linéarisation à biais réduit peut être considéré comme un compromis entre l'estimateur par linéarisation standard et celui du jackknife.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016717
    Description :

    Aux États-Unis, la National Health and Nutrition Examination Survey (NHANES) est couplée à la National Health Interview Survey (NHIS) au niveau de l'unité primaire d'échantillonnage (les mêmes comtés, mais pas nécessairement les mêmes personnes, participent aux deux enquêtes). La NHANES est réalisée auprès d'environ 5 000 personnes par année, tandis que la NHIS l'est auprès d'environ 100 000 personnes par année. Dans cet article, on expose les propriétés de modèles qui permettent d'utiliser les données de la NHIS et des données administratives comme information auxiliaire pour estimer les valeurs des variables étudiées dans le cadre de la NHANES. La méthode, qui est apparentée aux modèles régionaux de Fay Herriot (1979) et aux estimateurs par calage de Deville et Sarndal (1992), tient compte des plans de sondage dans la structure de l'erreur.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016723
    Description :

    Des résultats catégoriques, comme des réponses binaires, ordinales ou nominales, sont fréquents dans le domaine de la recherche par sondage. La régression logistique permet d'étudier la relation entre ce genre de variables catégoriques et un ensemble de variables explicatives. On peut utiliser la procédure LOGISTIC pour réaliser une analyse logistique des données provenant d'un échantillon aléatoire. Toutefois, cette méthode n'est pas valide si les données ont été recueillies selon d'autres plans d'échantillonnage, comme les plans de sondage complexes avec stratification, mise en grappes et/ou pondération inégale. Dans ces cas, il faut appliquer des techniques spécialisées pour produire les estimations et les erreurs types appropriées.

    La procédure SURVEYLOGISTIC expérimentale dans la version 9, introduit la régression logistique des données d'enquête dans le système SAS et offre la plupart des fonctions de la procédure LOGISTIC. L'exposé décrit la démarche méthodologique ainsi que les applications de ce nouveau logiciel.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016725
    Description :

    En 1997, le U.S. Office of Management and Budget a publié des normes révisées concernant la collecte de renseignements sur la race dans le système statistique fédéral. L'une de ces révisions consiste à permettre aux individus de choisir plus d'un groupe racial au moment de répondre à des enquêtes fédérales et à d'autres activités de collecte de données. Ce changement pose des difficultés en cas d'analyse portant sur des données recueillies en vertu de l'ancien et du nouveau système de déclaration de la race, puisque ces données ne sont pas comparables. Dans cet article, on examine les problèmes découlant de ces changements ainsi que les méthodes élaborées pour surmonter ces difficultés.

    Comme, aux termes des deux systèmes, la plupart des gens ne déclarent qu'une seule race, une solution fréquemment proposée est d'essayer d'établir un lien de transition par l'attribution d'une catégorie raciale unique à chaque personne déclarant plusieurs races en vertu du nouveau système, et de procéder aux analyses en utilisant uniquement les catégories uniraciales observées et assignées. Donc, le problème peut être considéré comme un problème de données manquantes dans lequel les valeurs pour les catégories uniraciales manquent et doivent être imputées pour les personnes qui déclarent plusieurs races.

    Le US Office of Management and Budget a proposé plusieurs méthodes simples d'établissement d'un lien pour résoudre ce problème des données manquantes. Schenker et Parker (Statistics in Medicine, à paraître) ont analysé des données provenant de la National Health Interview Survey, menée par le U.S. National Center for Health Statistics, qui permet de déclarer plusieurs races, mais demande aussi aux personnes qui le font de préciser une race principale. Ils ont constaté que l'on pourrait améliorer les méthodes d'établissement d'un lien en intégrant des covariables de niveau individuel et des covariables contextuelles dans les modèles d'établissement des liens.

    Alors que Schenker et Parker n'examinent que trois grands groupes multiraciaux, l'application décrite ici oblige à prédire les catégories uniraciales pour plusieurs petits groupes multiraciaux. Donc, des problèmes de paucité des données se posent au moment de l'ajustement des modèles d'établissement de liens. Il est possible de les résoudre en construisant des modèles combinés pour plusieurs groupes multiraciaux, c'est-à-dire en puisant de la force dans chacun d'eux. Outre ces problèmes, on étudie également d'autres questions liées à la méthodologie.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016729
    Description :

    Dans la grande majorité, sinon la totalité, des enquêtes par sondage, on doit faire face au problème de données manquantes. Les données manquantes sont habituellement causées par la non-réponse (le refus de participer à l'enquête ou l'intervieweur n'a pas été capable de rencontrer le répondant), mais elles peuvent aussi être créées à l'étape de la vérification des données pour résoudre des problèmes d'incohérences ou de réponses suspectes. La présence de données manquantes (non-réponse) entraîne généralement du biais et de l'incertitude dans les estimations. Pour surmonter cette difficulté, l'utilisation appropriée de toute l'information auxiliaire disponible permet de réduire au maximum le biais et la variance dus à la non-réponse. Dans le cadre de cette présentation, on définit le problème et on décrit la méthode sur laquelle le SEVANI est basé, puis on examine les utilisations possibles du système. En dernier lieu, on présente quelques exemples basés sur des données réelles illustrant la théorie en pratique.

    En pratique, il est très difficile d'estimer le biais dû à la non-réponse. Il est cependant possible d'évaluer la variance due à la non-réponse en supposant que le biais est négligeable. Au cours de la dernière décennie, plusieurs méthodes ont d'ailleurs été proposées pour estimer cette variance, dont certaines ont été implantées dans le Système d'estimation de la variance due à la non-réponse et à l'imputation (SEVANI).

    La méthode utilisée pour développer le SEVANI est basée sur la théorie de l'échantillonnage à deux phases où l'on suppose que la deuxième phase de sélection est la non-réponse. Toutefois, contrairement à l'échantillonnage à deux phases, un modèle d'imputation ou de non-réponse est requis pour l'estimation de la variance. Le SEVANI suppose également que la non-réponse est traitée en repondérant les unités répondantes ou en imputant les valeurs manquantes. On étudie trois techniques d'imputation : l'imputation d'une variable auxiliaire, l'imputation par la régression (déterministe ou aléatoire) et l'imputation par le plus proche voisin.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016731
    Description :

    En recherche behavioriste, diverses techniques sont utilisées pour prédire les scores des répondants pour des facteurs ou des concepts que l'on ne peut observer directement. La satisfaction concernant l'emploi, le stress au travail, l'aptitude à poursuivre des études de deuxième ou de troisième cycle et les aptitudes mathématiques des enfants en sont des exemples. Les méthodes utilisées couramment pour modéliser ce genre de concepts incluent l'analyse factorielle, la modélisation d'équation structurelle, les échelles psychométriques classiques et la théorie de la réponse à l'item, et, pour chaque méthode, il existe souvent plusieurs stratégies distinctes permettant de produire des scores individuels. Cependant, les chercheurs se satisfont rarement de simples mesures de ces concepts. Souvent, ils utilisent des scores dérivés en tant que variables dépendantes ou indépendantes dans la régression multiple, l'analyse de la variance et de nombreuses autres procédures multivariées. Bien que ces applications de scores dérivés puissent produire des estimations biaisées des paramètres des modèles structuraux, ces difficultés sont mal comprises et souvent ignorées. Nous passerons en revue les publications qui traitent de la question, en mettant l'accent sur les méthodes de la TRI, en vue de déterminer quels sont les domaines problématiques et de formuler des questions à étudier dans l'avenir.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016735
    Description :

    Dans le cadre du Recensement de la population de 2001, on a eu recours à l'estimation par calage ou par régression pour calculer un ensemble unique de coefficients de pondération au niveau du ménage pouvant être utilisé pour le calcul de toutes les estimations du recensement fondées sur les données recueillies auprès d'un échantillon national de 1 ménage sur 5 représentant plus de deux millions de ménages. Le nombre de variables auxiliaires étant très élevé, nous n'avons pu utiliser qu'un sous ensemble d'entre elles. Sinon, certains coefficients de pondération auraient été inférieurs à un, voire même négatifs. On a utilisé une méthode de sélection ascendante pour écarter les variables auxiliaires qui rendaient les coefficients de pondération inférieurs à un ou qui exigeaient un grand nombre de conditions pour qu'il y ait inversion de la matrice des poids de calage. En outre, nous avons procédé à deux ajustements de calage pour obtenir une bonne concordance entre les chiffres auxiliaires de population et les estimations pour les petites régions. Avant 2001, on utilisait l'estimateur par régression généralisée (GREG) pour la projection, et les coefficients de pondération ne pouvaient pas être nuls. Pour le Recensement de 2001, on est passé à un estimateur par régression pseudo optimal qui a permis de garder un plus grand nombre de variables auxiliaires tout en exigeant que les coefficients de pondération soient égaux ou supérieurs à un.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016745
    Description :

    L'attrait du plan expérimental de discontinuité de la régression tient à sa grande similarité avec un plan expérimental normal. Cependant, son applicabilité est limitée, puisqu'il n'est pas très fréquent que les unités soient affectées au groupe subissant le traitement d'après une mesure observable (par l'analyste) avant le programme. En outre, il permet uniquement de déterminer l'effet moyen sur une sous population très spécifique. Dans cet article, on montre que le plan expérimental de discontinuité de la régression peut être généralisé facilement aux cas où l'admissibilité des unités est établie d'après une mesure observable avant le programme et où est permise l'autosélection libre des unités admissibles dans le programme. Ces conditions s'avèrent aussi fort pratiques pour la construction d'un test de spécification sur des estimateurs non expérimentaux conventionnels de l'effet moyen du programme. On décrit explicitement les exigences concernant les données.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 11-522-X20020016749
    Description :

    L'échantillonnage est une branche de la statistique qui a pris du temps avant de tirer profit des méthodes de régression souples. Dans ce document technique, on examine deux approches pour tenter l'application de ces méthodes de régression : adapter les techniques aux plans d'enquêtes complexes qui sont utilisés ou échantillonner les données d'enquêtes de sorte que les techniques normalisées leur soient applicables.

    En adoptant la première approche, on présente des techniques qui tiennent compte de la structure complexe des données pour le lissage de nuage de points ainsi que des modèles additifs. L'utilisation de la méthode des moindres carrés pénalisés dans le contexte de l'échantillonnage est étudiée à titre d'outil d'analyse d'une tendance générale de la population finie. On se concentre sur la régression lisse avec modèle d'erreur normale. L'abondance des liens entre covariables dans le cas des enquêtes à grande échelle donne lieu à l'application de lisseurs de nuage de points pour procéder au lissage de la moyenne. On constate que l'estimation des courbes lissées (par exemple, les splines de lissage) ne dépend du plan d'échantillonnage que par les poids d'échantillonnage, ce qui signifie qu'un logiciel type peut être utilisé pour l'estimation. Pour ces courbes, l'inférence présente plus de difficultés à cause des corrélations induites par le plan d'échantillonnage. On propose et on illustre des tests qui tiennent compte du plan d'échantillonnage. Les exemples donnés, inspirés de l'Enquête sur la santé en Ontario, comprennent le lissage de nuage de points, les modèles additifs et les tests diagnostiques du modèle. Pour résoudre le problème au moyen d'un échantillonnage approprié du fichier de données d'enquêtes, on traite de certains obstacles à surmonter.

    Date de diffusion : 2004-09-13

  • Articles et rapports : 12-001-X20040016991
    Description :

    En échantillonnage, on utilise souvent la linéarisation de Taylor pour obtenir des estimateurs de variance pour des estimateurs par calage de totaux et de paramètres non linéaires de population finie (ou recensement), comme des ratios, ou des coefficients de régression et de corrélation, qui peuvent être exprimés sous forme de fonctions lisses de totaux. La linéarisation de Taylor est généralement applicable à tout plan d'échantillonnage, mais elle peut produire de multiples estimateurs de variance qui sont asymptotiquement sans biais par rapport au plan de sondage sous échantillonnage répété. Pour choisir lequel de ces estimateurs utiliser, il faut tenir compte d'autres critères, comme i) l'absence approximative de biais pour la variance par rapport au modèle de l'estimateur sous un modèle hypothétique, et ii) la validité sous l'échantillonnage répété conditionnel. Dans le présent article, nous proposons une nouvelle approche pour calculer les estimateurs de variance par linéarisation de Taylor. Elle mène directement à un estimateur de variance qui satisfait aux critères susmentionnés, du moins dans un nombre important de cas. Nous appliquons la méthode à divers problèmes, qui englobent les estimateurs d'un total, ainsi que d'autres estimateurs définis explicitement ou implicitement comme solutions d'équations d'estimation. En particulier, nous étudions les estimateurs des paramètres de régression logistique avec poids calés. Cette étude nous mène à un nouvel estimateur de la variance pour une classe générale d'estimateurs par calage qui inclut l'estimateur par la méthode itérative du quotient (raking ratio) généralisée et les estimateurs par régression généralisée. Nous étendons la méthode proposée à l'échantillonnage à deux phases pour obtenir un estimateur de variance qui utilise plus complètement les données de l'échantillon de première phase que les estimateurs de variance par linéarisation classiques.

    Date de diffusion : 2004-07-14
Références (0)

Références (0) (0 résultat)

Aucun contenu disponible actuellement

Date de modification :