Recherche par mot-clé

Aller au contenu principal
Aller au pied de page

Sélection de la langue

English

Recherche et menus

Recherche et menus

Rechercher

Résultats

Tout (12)

Tout (12) (0 à 10 de 12 résultats)

1. Réduction du biais des erreurs-types pour la régression linéaire dans le cas d'échantillons à plusieurs degrés Archivé
Articles et rapports : 11-522-X20020016430
Description :
Les méthodes de linéarisation (ou série de Taylor) sont souvent utilisées pour estimer les erreurs-types des coefficients des modèles de régression linéaire ajustés à des échantillons à phases multiples. Lorsque le nombre d'unités primaires d'échantillonnage (UPE) est grand, la linéarisation peut produire des valeurs précises d'erreurs-types dans des conditions assez générales. Par contre, si ce nombre est faible ou que la valeur d'un coefficient dépend en grande partie des données provenant d'un petit nombre d'UPE, les estimateurs par linéarisation peuvent présenter un biais négatif important.
Dans cet article, on définit les caractéristiques de la matrice de conception, qui biaisent fortement les erreurs-types estimées par la linéarisation des coefficients de régression linéaire. De plus, on propose une nouvelle méthode, appelée linéarisation à biais réduit (LBR), qui est fondée sur des résidus ajustés pour mieux évaluer approximativement la covariance des erreurs vraies. Si les erreurs sont indépendantes et pareillement distribuées, l'estimateur de LBR est sans biais pour la variance. En outre, une étude en simulation montre que la LBR peut réduire considérablement le biais, même si les erreurs ne sont pas indépendantes et pareillement distribuées. On propose aussi d'utiliser une approximation de Satterthwaite pour déterminer le nombre de degrés de liberté de la distribution de référence à l'égard des tests et des intervalles de confiance qui ont trait aux combinaisons linéaires de coefficients fondés sur l'estimateur de LBR. On démontre que l'estimateur de la variance jackknife a aussi tendance à être biaisé dans les situations où la linéarisation est faussée. Cependant, le biais du jackknife est généralement positif. L'estimateur par linéarisation à biais réduit peut être considéré comme un compromis entre l'estimateur par linéarisation standard et celui du jackknife.
Date de diffusion : 2004-09-13
2. Modèles régionaux fondés sur des données provenant d'enquêtes multiples Archivé
Articles et rapports : 11-522-X20020016717
Description :
Aux États-Unis, la National Health and Nutrition Examination Survey (NHANES) est couplée à la National Health Interview Survey (NHIS) au niveau de l'unité primaire d'échantillonnage (les mêmes comtés, mais pas nécessairement les mêmes personnes, participent aux deux enquêtes). La NHANES est réalisée auprès d'environ 5 000 personnes par année, tandis que la NHIS l'est auprès d'environ 100 000 personnes par année. Dans cet article, on expose les propriétés de modèles qui permettent d'utiliser les données de la NHIS et des données administratives comme information auxiliaire pour estimer les valeurs des variables étudiées dans le cadre de la NHANES. La méthode, qui est apparentée aux modèles régionaux de Fay Herriot (1979) et aux estimateurs par calage de Deville et Sarndal (1992), tient compte des plans de sondage dans la structure de l'erreur.
Date de diffusion : 2004-09-13
3. Application de la régression logistique à des données d'enquête au moyen de la nouvelle procédure « surveylogistic » Archivé
Articles et rapports : 11-522-X20020016723
Description :
Des résultats catégoriques, comme des réponses binaires, ordinales ou nominales, sont fréquents dans le domaine de la recherche par sondage. La régression logistique permet d'étudier la relation entre ce genre de variables catégoriques et un ensemble de variables explicatives. On peut utiliser la procédure LOGISTIC pour réaliser une analyse logistique des données provenant d'un échantillon aléatoire. Toutefois, cette méthode n'est pas valide si les données ont été recueillies selon d'autres plans d'échantillonnage, comme les plans de sondage complexes avec stratification, mise en grappes et/ou pondération inégale. Dans ces cas, il faut appliquer des techniques spécialisées pour produire les estimations et les erreurs types appropriées.
La procédure SURVEYLOGISTIC expérimentale dans la version 9, introduit la régression logistique des données d'enquête dans le système SAS et offre la plupart des fonctions de la procédure LOGISTIC. L'exposé décrit la démarche méthodologique ainsi que les applications de ce nouveau logiciel.
Date de diffusion : 2004-09-13
4. Établissement d'un lien entre les réponses sur l'appartenance à plusieurs races lors du Recensement des États-Unis et les catégories uniraciales pour le calcul des taux d'événements démographiques Archivé
Articles et rapports : 11-522-X20020016725
Description :
En 1997, le U.S. Office of Management and Budget a publié des normes révisées concernant la collecte de renseignements sur la race dans le système statistique fédéral. L'une de ces révisions consiste à permettre aux individus de choisir plus d'un groupe racial au moment de répondre à des enquêtes fédérales et à d'autres activités de collecte de données. Ce changement pose des difficultés en cas d'analyse portant sur des données recueillies en vertu de l'ancien et du nouveau système de déclaration de la race, puisque ces données ne sont pas comparables. Dans cet article, on examine les problèmes découlant de ces changements ainsi que les méthodes élaborées pour surmonter ces difficultés.
Comme, aux termes des deux systèmes, la plupart des gens ne déclarent qu'une seule race, une solution fréquemment proposée est d'essayer d'établir un lien de transition par l'attribution d'une catégorie raciale unique à chaque personne déclarant plusieurs races en vertu du nouveau système, et de procéder aux analyses en utilisant uniquement les catégories uniraciales observées et assignées. Donc, le problème peut être considéré comme un problème de données manquantes dans lequel les valeurs pour les catégories uniraciales manquent et doivent être imputées pour les personnes qui déclarent plusieurs races.
Le US Office of Management and Budget a proposé plusieurs méthodes simples d'établissement d'un lien pour résoudre ce problème des données manquantes. Schenker et Parker (Statistics in Medicine, à paraître) ont analysé des données provenant de la National Health Interview Survey, menée par le U.S. National Center for Health Statistics, qui permet de déclarer plusieurs races, mais demande aussi aux personnes qui le font de préciser une race principale. Ils ont constaté que l'on pourrait améliorer les méthodes d'établissement d'un lien en intégrant des covariables de niveau individuel et des covariables contextuelles dans les modèles d'établissement des liens.
Alors que Schenker et Parker n'examinent que trois grands groupes multiraciaux, l'application décrite ici oblige à prédire les catégories uniraciales pour plusieurs petits groupes multiraciaux. Donc, des problèmes de paucité des données se posent au moment de l'ajustement des modèles d'établissement de liens. Il est possible de les résoudre en construisant des modèles combinés pour plusieurs groupes multiraciaux, c'est-à-dire en puisant de la force dans chacun d'eux. Outre ces problèmes, on étudie également d'autres questions liées à la méthodologie.
Date de diffusion : 2004-09-13
5. Système d'estimation de la variance due à la non-réponse et à l'imputation (SEVANI) Archivé
Articles et rapports : 11-522-X20020016729
Description :
Dans la grande majorité, sinon la totalité, des enquêtes par sondage, on doit faire face au problème de données manquantes. Les données manquantes sont habituellement causées par la non-réponse (le refus de participer à l'enquête ou l'intervieweur n'a pas été capable de rencontrer le répondant), mais elles peuvent aussi être créées à l'étape de la vérification des données pour résoudre des problèmes d'incohérences ou de réponses suspectes. La présence de données manquantes (non-réponse) entraîne généralement du biais et de l'incertitude dans les estimations. Pour surmonter cette difficulté, l'utilisation appropriée de toute l'information auxiliaire disponible permet de réduire au maximum le biais et la variance dus à la non-réponse. Dans le cadre de cette présentation, on définit le problème et on décrit la méthode sur laquelle le SEVANI est basé, puis on examine les utilisations possibles du système. En dernier lieu, on présente quelques exemples basés sur des données réelles illustrant la théorie en pratique.
En pratique, il est très difficile d'estimer le biais dû à la non-réponse. Il est cependant possible d'évaluer la variance due à la non-réponse en supposant que le biais est négligeable. Au cours de la dernière décennie, plusieurs méthodes ont d'ailleurs été proposées pour estimer cette variance, dont certaines ont été implantées dans le Système d'estimation de la variance due à la non-réponse et à l'imputation (SEVANI).
La méthode utilisée pour développer le SEVANI est basée sur la théorie de l'échantillonnage à deux phases où l'on suppose que la deuxième phase de sélection est la non-réponse. Toutefois, contrairement à l'échantillonnage à deux phases, un modèle d'imputation ou de non-réponse est requis pour l'estimation de la variance. Le SEVANI suppose également que la non-réponse est traitée en repondérant les unités répondantes ou en imputant les valeurs manquantes. On étudie trois techniques d'imputation : l'imputation d'une variable auxiliaire, l'imputation par la régression (déterministe ou aléatoire) et l'imputation par le plus proche voisin.
Date de diffusion : 2004-09-13
6. Utilisation de la théorie de la réponse à l'item et des poids factoriels dans la régression et d'autres analyses : une revue Archivé
Articles et rapports : 11-522-X20020016731
Description :
En recherche behavioriste, diverses techniques sont utilisées pour prédire les scores des répondants pour des facteurs ou des concepts que l'on ne peut observer directement. La satisfaction concernant l'emploi, le stress au travail, l'aptitude à poursuivre des études de deuxième ou de troisième cycle et les aptitudes mathématiques des enfants en sont des exemples. Les méthodes utilisées couramment pour modéliser ce genre de concepts incluent l'analyse factorielle, la modélisation d'équation structurelle, les échelles psychométriques classiques et la théorie de la réponse à l'item, et, pour chaque méthode, il existe souvent plusieurs stratégies distinctes permettant de produire des scores individuels. Cependant, les chercheurs se satisfont rarement de simples mesures de ces concepts. Souvent, ils utilisent des scores dérivés en tant que variables dépendantes ou indépendantes dans la régression multiple, l'analyse de la variance et de nombreuses autres procédures multivariées. Bien que ces applications de scores dérivés puissent produire des estimations biaisées des paramètres des modèles structuraux, ces difficultés sont mal comprises et souvent ignorées. Nous passerons en revue les publications qui traitent de la question, en mettant l'accent sur les méthodes de la TRI, en vue de déterminer quels sont les domaines problématiques et de formuler des questions à étudier dans l'avenir.
Date de diffusion : 2004-09-13
7. Estimateurs par régression pour le Recensement du Canada de 2001 Archivé
Articles et rapports : 11-522-X20020016735
Description :
Dans le cadre du Recensement de la population de 2001, on a eu recours à l'estimation par calage ou par régression pour calculer un ensemble unique de coefficients de pondération au niveau du ménage pouvant être utilisé pour le calcul de toutes les estimations du recensement fondées sur les données recueillies auprès d'un échantillon national de 1 ménage sur 5 représentant plus de deux millions de ménages. Le nombre de variables auxiliaires étant très élevé, nous n'avons pu utiliser qu'un sous ensemble d'entre elles. Sinon, certains coefficients de pondération auraient été inférieurs à un, voire même négatifs. On a utilisé une méthode de sélection ascendante pour écarter les variables auxiliaires qui rendaient les coefficients de pondération inférieurs à un ou qui exigeaient un grand nombre de conditions pour qu'il y ait inversion de la matrice des poids de calage. En outre, nous avons procédé à deux ajustements de calage pour obtenir une bonne concordance entre les chiffres auxiliaires de population et les estimations pour les petites régions. Avant 2001, on utilisait l'estimateur par régression généralisée (GREG) pour la projection, et les coefficients de pondération ne pouvaient pas être nuls. Pour le Recensement de 2001, on est passé à un estimateur par régression pseudo optimal qui a permis de garder un plus grand nombre de variables auxiliaires tout en exigeant que les coefficients de pondération soient égaux ou supérieurs à un.
Date de diffusion : 2004-09-13
8. Nouveau regard sur le plan expérimental de discontinuité de la régression Archivé
Articles et rapports : 11-522-X20020016745
Description :
L'attrait du plan expérimental de discontinuité de la régression tient à sa grande similarité avec un plan expérimental normal. Cependant, son applicabilité est limitée, puisqu'il n'est pas très fréquent que les unités soient affectées au groupe subissant le traitement d'après une mesure observable (par l'analyste) avant le programme. En outre, il permet uniquement de déterminer l'effet moyen sur une sous population très spécifique. Dans cet article, on montre que le plan expérimental de discontinuité de la régression peut être généralisé facilement aux cas où l'admissibilité des unités est établie d'après une mesure observable avant le programme et où est permise l'autosélection libre des unités admissibles dans le programme. Ces conditions s'avèrent aussi fort pratiques pour la construction d'un test de spécification sur des estimateurs non expérimentaux conventionnels de l'effet moyen du programme. On décrit explicitement les exigences concernant les données.
Date de diffusion : 2004-09-13
9. Quelques méthodes de régression souples pour les enquêtes complexes Archivé
Articles et rapports : 11-522-X20020016749
Description :
L'échantillonnage est une branche de la statistique qui a pris du temps avant de tirer profit des méthodes de régression souples. Dans ce document technique, on examine deux approches pour tenter l'application de ces méthodes de régression : adapter les techniques aux plans d'enquêtes complexes qui sont utilisés ou échantillonner les données d'enquêtes de sorte que les techniques normalisées leur soient applicables.
En adoptant la première approche, on présente des techniques qui tiennent compte de la structure complexe des données pour le lissage de nuage de points ainsi que des modèles additifs. L'utilisation de la méthode des moindres carrés pénalisés dans le contexte de l'échantillonnage est étudiée à titre d'outil d'analyse d'une tendance générale de la population finie. On se concentre sur la régression lisse avec modèle d'erreur normale. L'abondance des liens entre covariables dans le cas des enquêtes à grande échelle donne lieu à l'application de lisseurs de nuage de points pour procéder au lissage de la moyenne. On constate que l'estimation des courbes lissées (par exemple, les splines de lissage) ne dépend du plan d'échantillonnage que par les poids d'échantillonnage, ce qui signifie qu'un logiciel type peut être utilisé pour l'estimation. Pour ces courbes, l'inférence présente plus de difficultés à cause des corrélations induites par le plan d'échantillonnage. On propose et on illustre des tests qui tiennent compte du plan d'échantillonnage. Les exemples donnés, inspirés de l'Enquête sur la santé en Ontario, comprennent le lissage de nuage de points, les modèles additifs et les tests diagnostiques du modèle. Pour résoudre le problème au moyen d'un échantillonnage approprié du fichier de données d'enquêtes, on traite de certains obstacles à surmonter.
Date de diffusion : 2004-09-13
10. Estimateurs de variance par linéarisation pour des données d'enquête Archivé
Articles et rapports : 12-001-X20040016991
Description :
En échantillonnage, on utilise souvent la linéarisation de Taylor pour obtenir des estimateurs de variance pour des estimateurs par calage de totaux et de paramètres non linéaires de population finie (ou recensement), comme des ratios, ou des coefficients de régression et de corrélation, qui peuvent être exprimés sous forme de fonctions lisses de totaux. La linéarisation de Taylor est généralement applicable à tout plan d'échantillonnage, mais elle peut produire de multiples estimateurs de variance qui sont asymptotiquement sans biais par rapport au plan de sondage sous échantillonnage répété. Pour choisir lequel de ces estimateurs utiliser, il faut tenir compte d'autres critères, comme i) l'absence approximative de biais pour la variance par rapport au modèle de l'estimateur sous un modèle hypothétique, et ii) la validité sous l'échantillonnage répété conditionnel. Dans le présent article, nous proposons une nouvelle approche pour calculer les estimateurs de variance par linéarisation de Taylor. Elle mène directement à un estimateur de variance qui satisfait aux critères susmentionnés, du moins dans un nombre important de cas. Nous appliquons la méthode à divers problèmes, qui englobent les estimateurs d'un total, ainsi que d'autres estimateurs définis explicitement ou implicitement comme solutions d'équations d'estimation. En particulier, nous étudions les estimateurs des paramètres de régression logistique avec poids calés. Cette étude nous mène à un nouvel estimateur de la variance pour une classe générale d'estimateurs par calage qui inclut l'estimateur par la méthode itérative du quotient (raking ratio) généralisée et les estimateurs par régression généralisée. Nous étendons la méthode proposée à l'échantillonnage à deux phases pour obtenir un estimateur de variance qui utilise plus complètement les données de l'échantillon de première phase que les estimateurs de variance par linéarisation classiques.
Date de diffusion : 2004-07-14

Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (12)

Analyses (12) (0 à 10 de 12 résultats)

1. Réduction du biais des erreurs-types pour la régression linéaire dans le cas d'échantillons à plusieurs degrés Archivé
Articles et rapports : 11-522-X20020016430
Description :
Les méthodes de linéarisation (ou série de Taylor) sont souvent utilisées pour estimer les erreurs-types des coefficients des modèles de régression linéaire ajustés à des échantillons à phases multiples. Lorsque le nombre d'unités primaires d'échantillonnage (UPE) est grand, la linéarisation peut produire des valeurs précises d'erreurs-types dans des conditions assez générales. Par contre, si ce nombre est faible ou que la valeur d'un coefficient dépend en grande partie des données provenant d'un petit nombre d'UPE, les estimateurs par linéarisation peuvent présenter un biais négatif important.
Dans cet article, on définit les caractéristiques de la matrice de conception, qui biaisent fortement les erreurs-types estimées par la linéarisation des coefficients de régression linéaire. De plus, on propose une nouvelle méthode, appelée linéarisation à biais réduit (LBR), qui est fondée sur des résidus ajustés pour mieux évaluer approximativement la covariance des erreurs vraies. Si les erreurs sont indépendantes et pareillement distribuées, l'estimateur de LBR est sans biais pour la variance. En outre, une étude en simulation montre que la LBR peut réduire considérablement le biais, même si les erreurs ne sont pas indépendantes et pareillement distribuées. On propose aussi d'utiliser une approximation de Satterthwaite pour déterminer le nombre de degrés de liberté de la distribution de référence à l'égard des tests et des intervalles de confiance qui ont trait aux combinaisons linéaires de coefficients fondés sur l'estimateur de LBR. On démontre que l'estimateur de la variance jackknife a aussi tendance à être biaisé dans les situations où la linéarisation est faussée. Cependant, le biais du jackknife est généralement positif. L'estimateur par linéarisation à biais réduit peut être considéré comme un compromis entre l'estimateur par linéarisation standard et celui du jackknife.
Date de diffusion : 2004-09-13
2. Modèles régionaux fondés sur des données provenant d'enquêtes multiples Archivé
Articles et rapports : 11-522-X20020016717
Description :
Aux États-Unis, la National Health and Nutrition Examination Survey (NHANES) est couplée à la National Health Interview Survey (NHIS) au niveau de l'unité primaire d'échantillonnage (les mêmes comtés, mais pas nécessairement les mêmes personnes, participent aux deux enquêtes). La NHANES est réalisée auprès d'environ 5 000 personnes par année, tandis que la NHIS l'est auprès d'environ 100 000 personnes par année. Dans cet article, on expose les propriétés de modèles qui permettent d'utiliser les données de la NHIS et des données administratives comme information auxiliaire pour estimer les valeurs des variables étudiées dans le cadre de la NHANES. La méthode, qui est apparentée aux modèles régionaux de Fay Herriot (1979) et aux estimateurs par calage de Deville et Sarndal (1992), tient compte des plans de sondage dans la structure de l'erreur.
Date de diffusion : 2004-09-13
3. Application de la régression logistique à des données d'enquête au moyen de la nouvelle procédure « surveylogistic » Archivé
Articles et rapports : 11-522-X20020016723
Description :
Des résultats catégoriques, comme des réponses binaires, ordinales ou nominales, sont fréquents dans le domaine de la recherche par sondage. La régression logistique permet d'étudier la relation entre ce genre de variables catégoriques et un ensemble de variables explicatives. On peut utiliser la procédure LOGISTIC pour réaliser une analyse logistique des données provenant d'un échantillon aléatoire. Toutefois, cette méthode n'est pas valide si les données ont été recueillies selon d'autres plans d'échantillonnage, comme les plans de sondage complexes avec stratification, mise en grappes et/ou pondération inégale. Dans ces cas, il faut appliquer des techniques spécialisées pour produire les estimations et les erreurs types appropriées.
La procédure SURVEYLOGISTIC expérimentale dans la version 9, introduit la régression logistique des données d'enquête dans le système SAS et offre la plupart des fonctions de la procédure LOGISTIC. L'exposé décrit la démarche méthodologique ainsi que les applications de ce nouveau logiciel.
Date de diffusion : 2004-09-13
4. Établissement d'un lien entre les réponses sur l'appartenance à plusieurs races lors du Recensement des États-Unis et les catégories uniraciales pour le calcul des taux d'événements démographiques Archivé
Articles et rapports : 11-522-X20020016725
Description :
En 1997, le U.S. Office of Management and Budget a publié des normes révisées concernant la collecte de renseignements sur la race dans le système statistique fédéral. L'une de ces révisions consiste à permettre aux individus de choisir plus d'un groupe racial au moment de répondre à des enquêtes fédérales et à d'autres activités de collecte de données. Ce changement pose des difficultés en cas d'analyse portant sur des données recueillies en vertu de l'ancien et du nouveau système de déclaration de la race, puisque ces données ne sont pas comparables. Dans cet article, on examine les problèmes découlant de ces changements ainsi que les méthodes élaborées pour surmonter ces difficultés.
Comme, aux termes des deux systèmes, la plupart des gens ne déclarent qu'une seule race, une solution fréquemment proposée est d'essayer d'établir un lien de transition par l'attribution d'une catégorie raciale unique à chaque personne déclarant plusieurs races en vertu du nouveau système, et de procéder aux analyses en utilisant uniquement les catégories uniraciales observées et assignées. Donc, le problème peut être considéré comme un problème de données manquantes dans lequel les valeurs pour les catégories uniraciales manquent et doivent être imputées pour les personnes qui déclarent plusieurs races.
Le US Office of Management and Budget a proposé plusieurs méthodes simples d'établissement d'un lien pour résoudre ce problème des données manquantes. Schenker et Parker (Statistics in Medicine, à paraître) ont analysé des données provenant de la National Health Interview Survey, menée par le U.S. National Center for Health Statistics, qui permet de déclarer plusieurs races, mais demande aussi aux personnes qui le font de préciser une race principale. Ils ont constaté que l'on pourrait améliorer les méthodes d'établissement d'un lien en intégrant des covariables de niveau individuel et des covariables contextuelles dans les modèles d'établissement des liens.
Alors que Schenker et Parker n'examinent que trois grands groupes multiraciaux, l'application décrite ici oblige à prédire les catégories uniraciales pour plusieurs petits groupes multiraciaux. Donc, des problèmes de paucité des données se posent au moment de l'ajustement des modèles d'établissement de liens. Il est possible de les résoudre en construisant des modèles combinés pour plusieurs groupes multiraciaux, c'est-à-dire en puisant de la force dans chacun d'eux. Outre ces problèmes, on étudie également d'autres questions liées à la méthodologie.
Date de diffusion : 2004-09-13
5. Système d'estimation de la variance due à la non-réponse et à l'imputation (SEVANI) Archivé
Articles et rapports : 11-522-X20020016729
Description :
Dans la grande majorité, sinon la totalité, des enquêtes par sondage, on doit faire face au problème de données manquantes. Les données manquantes sont habituellement causées par la non-réponse (le refus de participer à l'enquête ou l'intervieweur n'a pas été capable de rencontrer le répondant), mais elles peuvent aussi être créées à l'étape de la vérification des données pour résoudre des problèmes d'incohérences ou de réponses suspectes. La présence de données manquantes (non-réponse) entraîne généralement du biais et de l'incertitude dans les estimations. Pour surmonter cette difficulté, l'utilisation appropriée de toute l'information auxiliaire disponible permet de réduire au maximum le biais et la variance dus à la non-réponse. Dans le cadre de cette présentation, on définit le problème et on décrit la méthode sur laquelle le SEVANI est basé, puis on examine les utilisations possibles du système. En dernier lieu, on présente quelques exemples basés sur des données réelles illustrant la théorie en pratique.
En pratique, il est très difficile d'estimer le biais dû à la non-réponse. Il est cependant possible d'évaluer la variance due à la non-réponse en supposant que le biais est négligeable. Au cours de la dernière décennie, plusieurs méthodes ont d'ailleurs été proposées pour estimer cette variance, dont certaines ont été implantées dans le Système d'estimation de la variance due à la non-réponse et à l'imputation (SEVANI).
La méthode utilisée pour développer le SEVANI est basée sur la théorie de l'échantillonnage à deux phases où l'on suppose que la deuxième phase de sélection est la non-réponse. Toutefois, contrairement à l'échantillonnage à deux phases, un modèle d'imputation ou de non-réponse est requis pour l'estimation de la variance. Le SEVANI suppose également que la non-réponse est traitée en repondérant les unités répondantes ou en imputant les valeurs manquantes. On étudie trois techniques d'imputation : l'imputation d'une variable auxiliaire, l'imputation par la régression (déterministe ou aléatoire) et l'imputation par le plus proche voisin.
Date de diffusion : 2004-09-13
6. Utilisation de la théorie de la réponse à l'item et des poids factoriels dans la régression et d'autres analyses : une revue Archivé
Articles et rapports : 11-522-X20020016731
Description :
En recherche behavioriste, diverses techniques sont utilisées pour prédire les scores des répondants pour des facteurs ou des concepts que l'on ne peut observer directement. La satisfaction concernant l'emploi, le stress au travail, l'aptitude à poursuivre des études de deuxième ou de troisième cycle et les aptitudes mathématiques des enfants en sont des exemples. Les méthodes utilisées couramment pour modéliser ce genre de concepts incluent l'analyse factorielle, la modélisation d'équation structurelle, les échelles psychométriques classiques et la théorie de la réponse à l'item, et, pour chaque méthode, il existe souvent plusieurs stratégies distinctes permettant de produire des scores individuels. Cependant, les chercheurs se satisfont rarement de simples mesures de ces concepts. Souvent, ils utilisent des scores dérivés en tant que variables dépendantes ou indépendantes dans la régression multiple, l'analyse de la variance et de nombreuses autres procédures multivariées. Bien que ces applications de scores dérivés puissent produire des estimations biaisées des paramètres des modèles structuraux, ces difficultés sont mal comprises et souvent ignorées. Nous passerons en revue les publications qui traitent de la question, en mettant l'accent sur les méthodes de la TRI, en vue de déterminer quels sont les domaines problématiques et de formuler des questions à étudier dans l'avenir.
Date de diffusion : 2004-09-13
7. Estimateurs par régression pour le Recensement du Canada de 2001 Archivé
Articles et rapports : 11-522-X20020016735
Description :
Dans le cadre du Recensement de la population de 2001, on a eu recours à l'estimation par calage ou par régression pour calculer un ensemble unique de coefficients de pondération au niveau du ménage pouvant être utilisé pour le calcul de toutes les estimations du recensement fondées sur les données recueillies auprès d'un échantillon national de 1 ménage sur 5 représentant plus de deux millions de ménages. Le nombre de variables auxiliaires étant très élevé, nous n'avons pu utiliser qu'un sous ensemble d'entre elles. Sinon, certains coefficients de pondération auraient été inférieurs à un, voire même négatifs. On a utilisé une méthode de sélection ascendante pour écarter les variables auxiliaires qui rendaient les coefficients de pondération inférieurs à un ou qui exigeaient un grand nombre de conditions pour qu'il y ait inversion de la matrice des poids de calage. En outre, nous avons procédé à deux ajustements de calage pour obtenir une bonne concordance entre les chiffres auxiliaires de population et les estimations pour les petites régions. Avant 2001, on utilisait l'estimateur par régression généralisée (GREG) pour la projection, et les coefficients de pondération ne pouvaient pas être nuls. Pour le Recensement de 2001, on est passé à un estimateur par régression pseudo optimal qui a permis de garder un plus grand nombre de variables auxiliaires tout en exigeant que les coefficients de pondération soient égaux ou supérieurs à un.
Date de diffusion : 2004-09-13
8. Nouveau regard sur le plan expérimental de discontinuité de la régression Archivé
Articles et rapports : 11-522-X20020016745
Description :
L'attrait du plan expérimental de discontinuité de la régression tient à sa grande similarité avec un plan expérimental normal. Cependant, son applicabilité est limitée, puisqu'il n'est pas très fréquent que les unités soient affectées au groupe subissant le traitement d'après une mesure observable (par l'analyste) avant le programme. En outre, il permet uniquement de déterminer l'effet moyen sur une sous population très spécifique. Dans cet article, on montre que le plan expérimental de discontinuité de la régression peut être généralisé facilement aux cas où l'admissibilité des unités est établie d'après une mesure observable avant le programme et où est permise l'autosélection libre des unités admissibles dans le programme. Ces conditions s'avèrent aussi fort pratiques pour la construction d'un test de spécification sur des estimateurs non expérimentaux conventionnels de l'effet moyen du programme. On décrit explicitement les exigences concernant les données.
Date de diffusion : 2004-09-13
9. Quelques méthodes de régression souples pour les enquêtes complexes Archivé
Articles et rapports : 11-522-X20020016749
Description :
L'échantillonnage est une branche de la statistique qui a pris du temps avant de tirer profit des méthodes de régression souples. Dans ce document technique, on examine deux approches pour tenter l'application de ces méthodes de régression : adapter les techniques aux plans d'enquêtes complexes qui sont utilisés ou échantillonner les données d'enquêtes de sorte que les techniques normalisées leur soient applicables.
En adoptant la première approche, on présente des techniques qui tiennent compte de la structure complexe des données pour le lissage de nuage de points ainsi que des modèles additifs. L'utilisation de la méthode des moindres carrés pénalisés dans le contexte de l'échantillonnage est étudiée à titre d'outil d'analyse d'une tendance générale de la population finie. On se concentre sur la régression lisse avec modèle d'erreur normale. L'abondance des liens entre covariables dans le cas des enquêtes à grande échelle donne lieu à l'application de lisseurs de nuage de points pour procéder au lissage de la moyenne. On constate que l'estimation des courbes lissées (par exemple, les splines de lissage) ne dépend du plan d'échantillonnage que par les poids d'échantillonnage, ce qui signifie qu'un logiciel type peut être utilisé pour l'estimation. Pour ces courbes, l'inférence présente plus de difficultés à cause des corrélations induites par le plan d'échantillonnage. On propose et on illustre des tests qui tiennent compte du plan d'échantillonnage. Les exemples donnés, inspirés de l'Enquête sur la santé en Ontario, comprennent le lissage de nuage de points, les modèles additifs et les tests diagnostiques du modèle. Pour résoudre le problème au moyen d'un échantillonnage approprié du fichier de données d'enquêtes, on traite de certains obstacles à surmonter.
Date de diffusion : 2004-09-13
10. Estimateurs de variance par linéarisation pour des données d'enquête Archivé
Articles et rapports : 12-001-X20040016991
Description :
En échantillonnage, on utilise souvent la linéarisation de Taylor pour obtenir des estimateurs de variance pour des estimateurs par calage de totaux et de paramètres non linéaires de population finie (ou recensement), comme des ratios, ou des coefficients de régression et de corrélation, qui peuvent être exprimés sous forme de fonctions lisses de totaux. La linéarisation de Taylor est généralement applicable à tout plan d'échantillonnage, mais elle peut produire de multiples estimateurs de variance qui sont asymptotiquement sans biais par rapport au plan de sondage sous échantillonnage répété. Pour choisir lequel de ces estimateurs utiliser, il faut tenir compte d'autres critères, comme i) l'absence approximative de biais pour la variance par rapport au modèle de l'estimateur sous un modèle hypothétique, et ii) la validité sous l'échantillonnage répété conditionnel. Dans le présent article, nous proposons une nouvelle approche pour calculer les estimateurs de variance par linéarisation de Taylor. Elle mène directement à un estimateur de variance qui satisfait aux critères susmentionnés, du moins dans un nombre important de cas. Nous appliquons la méthode à divers problèmes, qui englobent les estimateurs d'un total, ainsi que d'autres estimateurs définis explicitement ou implicitement comme solutions d'équations d'estimation. En particulier, nous étudions les estimateurs des paramètres de régression logistique avec poids calés. Cette étude nous mène à un nouvel estimateur de la variance pour une classe générale d'estimateurs par calage qui inclut l'estimateur par la méthode itérative du quotient (raking ratio) généralisée et les estimateurs par régression généralisée. Nous étendons la méthode proposée à l'échantillonnage à deux phases pour obtenir un estimateur de variance qui utilise plus complètement les données de l'échantillon de première phase que les estimateurs de variance par linéarisation classiques.
Date de diffusion : 2004-07-14

Références (0)

Références (0) (0 résultat)

Aucun contenu disponible actuellement

Signaler un problème ou une erreur sur cette page

Date de modification :: 2024-10-19

Comment utiliser les filtres et le champ de recherche

Vous pouvez faire une recherche en inscrivant des mots-clés ou en sélectionnant des filtres (p. ex. sous Sujet, Géographie, etc.) du côté gauche de la page.
On peut utiliser les filtres ensemble ou former diverses combinaisons. À chaque sélection de filtre, la page des résultats est mise à jour.
Pour commencer une nouvelle recherche, cliquez sur le bouton Effacer tout au-dessus du champ de recherche ou décochez tous les filtres.
Les mots-clés et les filtres précisés sont affichés au-dessus du champ de recherche. Vous pouvez désélectionner l’un ou l’autre des éléments ou tous les éléments, pour préciser ou effacer votre recherche.

Comment préciser ma recherche

Vous pouvez entrer des mots-clés dans le champ de recherche. Il n’est pas nécessaire d’utiliser « + » ou « , » ou « ET ».
Vous pouvez supprimer certains mots-clés ou tous les mots-clés de votre chaîne de recherche.
Les mots-clés entre guillemets limitent la recherche à l’expression précise.
- Par exemple, si vous cherchez « Enquête sur la population active », vous obtiendrez seulement des documents contenant cette suite de mots.
Utilisez « ou » entre les mots-clés pour obtenir des résultats qui contiennent au moins l’un des termes recherchés.
- Par exemple, si vous cherchez enquête ou population ou active, vous obtiendrez seulement les documents contenant l’un ou l’autre de ces mots, ou tous ces mots.

Comment fonctionne la recherche

Cette forme de recherche fournira les résultats contenant le(s) mot(s) inscrit(s) dans le titre, la description, le sujet, la géographie, le numéro de produit ou toute autre information au sujet du produit.
- Par exemple, lorsque vous cherchez le mot « maladies », tous les résultats obtenus contiendront ce mot dans le titre, la description, ou le sujet.
La recherche ne se fait pas dans le texte des articles ou des publications. Pour faire une recherche plein texte dans les articles, utilisez la fonction de recherche du site.