Recherche par mot-clé

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Portail

    Contenu

    1 facets displayed. 0 facets selected.
    Aide à l'ordre
    entrées

    Résultats

    Tout (185)

    Tout (185) (10 à 20 de 185 résultats)

    • Articles et rapports : 12-001-X201500114160
      Description :

      L’estimation composite est une technique applicable aux enquêtes répétées avec chevauchement contrôlé entre les enquêtes successives. Le présent article examine les estimateurs par la régression modifiée qui permettent d’intégrer l’information provenant de périodes antérieures dans les estimations pour la période courante. La gamme d’estimateurs par la régression modifiée est étendue au cas des enquêtes-entreprises dont la base de sondage évolue avec le temps en raison de l’ajout des « nouvelles entreprises » et de la suppression des « entreprises disparues ». Puisque les estimateurs par la régression modifiée peuvent s’écarter de l’estimateur par la régression généralisée au cours du temps, il est proposé d’utiliser un estimateur par la régression modifiée de compromis correspondant à la moyenne pondérée de l’estimateur par la régression modifiée et de l’estimateur par la régression généralisée. Une étude par simulation Monte Carlo montre que l’estimateur par la régression modifiée de compromis proposé donne lieu à d’importants gains d’efficacité en ce qui concerne les estimations ponctuelles ainsi que les estimations des variations.

      Date de diffusion : 2015-06-29

    • Articles et rapports : 12-001-X201500114174
      Description :

      L’échantillonnage matriciel, aussi appelé échantillonnage avec questionnaire fractionné ou scindé, est un plan d’échantillonnage qui consiste à diviser un questionnaire en sous-ensembles de questions, éventuellement chevauchants, puis à administrer chaque sous-ensemble à un ou à plusieurs sous-échantillons aléatoires d’un échantillon initial. Ce type de plan, de plus en plus attrayant, répond aux préoccupations concernant les coûts de la collecte, le fardeau de réponse et la qualité des données, mais réduit le nombre d’unités échantillonnées auxquelles les questions sont posées. Un concept élargi du plan d’échantillonnage matriciel comprend l’intégration d’échantillons provenant d’enquêtes distinctes afin de rationaliser les opérations d’enquête et d’accroître la cohérence des données de sortie. Dans le cas de l’échantillonnage matriciel avec sous-ensembles chevauchants de questions, nous proposons une méthode d’estimation efficace qui exploite les corrélations entre les items étudiés dans les divers sous-échantillons afin d’améliorer la précision des estimations de l’enquête. La méthode proposée, fondée sur le principe de la meilleure estimation linéaire sans biais, produit des estimateurs par régression optimale composites des totaux de population en utilisant un scénario approprié de calage des poids d’échantillonnage de l’échantillon complet. Une variante de ce scénario de calage, d’usage plus général, produit des estimateurs par régression généralisée composites qui sont également très efficaces sur le plan des calculs.

      Date de diffusion : 2015-06-29

    • Articles et rapports : 12-001-X201500114200
      Description :

      Nous considérons la méthode de la meilleure prédiction observée (MPO; Jiang, Nguyen et Rao 2011) pour l’estimation sur petits domaines sous le modèle de régression à erreurs emboîtées, où les fonctions moyenne et variance peuvent toutes deux être spécifiées inexactement. Nous montrons au moyen d’une étude par simulation que la MPO peut donner de nettement meilleurs résultats que la méthode du meilleur prédicteur linéaire sans biais empirique (MPLSBE) non seulement en ce qui concerne l’erreur quadratique moyenne de prédiction (EQMP) globale, mais aussi l’EQMP au niveau du domaine pour chacun des petits domaines. Nous proposons, pour estimer l’EQMP au niveau du domaine basée sur le plan de sondage, une méthode du bootstrap simple qui produit toujours des estimations positives de l’EQMP. Nous évaluons les propriétés de l’estimateur de l’EQMP proposé au moyen d’une étude par simulation. Nous examinons une application à la Television School and Family Smoking Prevention and Cessation study.

      Date de diffusion : 2015-06-29

    • Articles et rapports : 12-001-X201400111886
      Description :

      L'estimateur bayésien linéaire en population finie est obtenu en partant d'un modèle de régression à deux degrés spécifié uniquement par les moyennes et les variances de certains paramètres du modèle associés à chaque degré de la hiérarchie. Nombre d'estimateurs fondés sur le plan de sondage usuels décrits dans la littérature peuvent être obtenus en tant que cas particuliers. Un nouvel estimateur par le ratio est également proposé pour la situation pratique où de l'information auxiliaire est disponible. L'application de la même approche bayésienne linéaire est proposée pour estimer des proportions pour des données catégoriques multiples associées aux unités de la population finie, ce qui constitue la principale contribution des présents travaux, et est illustrée au moyen d'un exemple numérique.

      Date de diffusion : 2014-06-27

    • Articles et rapports : 12-001-X201400114004
      Description :

      En 2009, deux enquêtes importantes réalisées par la division des administrations publiques du U.S. Census Bureau ont été remaniées afin de réduire la taille de l’échantillon, d’économiser des ressources et d’améliorer la précision des estimations (Cheng, Corcoran, Barth et Hogue 2009). Sous le nouveau plan de sondage, chaque strate habituelle, définie par l’État et le type d’administration publique, qui contient un nombre suffisant d’unités (administrations publiques) est divisée en deux sous strates en fonction de la masse salariale totale de chaque unité afin de tirer un plus petit échantillon de la sous strate des unités de petite taille. L’approche assistée par modèle est adoptée pour estimer les totaux de population. Des estimateurs par la régression utilisant des variables auxiliaires sont obtenus soit pour chaque sous strate ainsi créée soit pour la strate originale en regroupant des deux sous strates. Cheng, Slud et Hogue (2010) ont proposé une méthode fondée sur un test de décision qui consiste à appliquer un test d’hypothèse pour décider quel estimateur par la régression sera utilisé pour chaque strate originale. La convergence et la normalité asymptotique de ces estimateurs assistés par modèle sont établies ici sous un cadre asymptotique fondé sur le plan de sondage ou assisté par modèle. Nos résultats asymptotiques suggèrent aussi deux types d’estimateurs de variance convergents, l’un obtenu par substitution des quantités inconnues dans les variances asymptotiques et l’autre en appliquant la méthode du bootstrap. La performance de tous les estimateurs des totaux et des estimateurs de leur variance est examinée au moyen d’études empiriques. L’Annual Survey of Public Employment and Payroll (ASPEP) des États Unis est utilisé pour motiver et illustrer notre étude.

      Date de diffusion : 2014-06-27

    • Articles et rapports : 12-001-X201300211871
      Description :

      Les modèles de régression sont utilisés couramment pour analyser les données d'enquête lorsque l'on souhaite déterminer quels sont les facteurs influents associés à certains indices comportementaux, sociaux ou économiques au sein d'une population cible. Lorsque des données sont recueillies au moyen d'enquêtes complexes, il convient de réexaminer les propriétés des approches classiques de sélection des variables élaborées dans des conditions i.i.d. ne faisant pas appel au sondage. Dans le présent article, nous dérivons un critère BIC fondé sur la pseudovraisemblance pour la sélection des variables dans l'analyse des données d'enquête et proposons une approche de vraisemblance pénalisée dans des conditions de sondage pour sa mise en oeuvre. Les poids de sondage sont attribués comme il convient pour corriger le biais de sélection causé par la distorsion entre l'échantillon et la population cible. Dans un cadre de randomisation conjointe, nous établissons la cohérence de la procédure de sélection proposée. Les propriétés en échantillon fini de l'approche sont évaluées par des analyses et des simulations informatiques en se servant de données provenant de la composante de l'hypertension de l'Enquête sur les personnes ayant une maladie chronique au Canada de 2009.

      Date de diffusion : 2014-01-15

    • Articles et rapports : 12-001-X201200211757
      Description :

      Les colinéarités entre les variables explicatives des modèles de régression linéaire affectent les estimations fondées sur des données d'enquête autant que celles fondées sur des données ne provenant pas d'enquêtes. Les effets indésirables sont des erreurs-types inutilement grandes, des statistiques t faussement faibles ou élevées et des estimations des paramètres de signe illogique. Les diagnostics de colinéarité disponibles ne conviennent généralement pas pour les données d'enquête, parce que les estimateurs de variance qui y sont intégrés ne tiennent pas compte correctement de la stratification, des grappes et des poids de sondage. Dans le présent article, nous élaborons des indices de conditionnement et des décompositions de variance pour diagnostiquer les problèmes de colinéarité dans des données provenant d'enquêtes complexes. Les diagnostics adaptés sont illustrés au moyen de données provenant d'une enquête sur les caractéristiques de l'état de santé.

      Date de diffusion : 2012-12-19

    • Articles et rapports : 12-001-X201200111685
      Description :

      Les données d'enquêtes servent souvent à ajuster des modèles de régression linéaire. Les valeurs des covariables utilisées dans la modélisation n'étant toutefois pas contrôlées comme elles pourraient l'être dans une expérience, la colinéarité entre les covariables est un problème inévitable dans l'analyse des données d'enquêtes. Même si de nombreux livres et articles ont décrit le problème de la colinéarité et proposé des stratégies en vue de comprendre, d'évaluer et de traiter sa présence, la littérature sur les méthodes d'enquête n'a livré aucun outil diagnostique approprié pour évaluer son incidence sur l'estimation par la régression quand il est tenu compte de la complexité de l'enquête. Nous avons élaboré des facteurs d'inflation de la variance qui mesurent l'augmentation (« l'inflation ») de la variance des estimateurs des paramètres attribuable au fait que les variables explicatives ne sont pas orthogonales. Les facteurs d'inflation de la variance conviennent pour les estimateurs par la régression pondérée par les poids de sondage et tiennent compte des caractéristiques du plan de sondage complexe, par exemple, les pondérations, les grappes et les strates. Ces méthodes sont illustrées en utilisant un échantillon probabiliste provenant d'une enquête-ménage sur la santé et la nutrition.

      Date de diffusion : 2012-06-27

    • Articles et rapports : 12-001-X201100211602
      Description :

      Cet article tente de répondre aux trois questions énoncées dans le titre. Il commence par une discussion des caractéristiques uniques des données d'enquêtes complexes qui diffèrent de celles des autres ensembles de données ; ces caractéristiques requièrent une attention spéciale, mais suggèrent une vaste gamme de procédures d'inférence. Ensuite, un certain nombre d'approches proposées dans la documentation pour traiter ces caractéristiques sont passées en revue en discutant de leurs mérites et de leurs limites. Ces approches diffèrent en ce qui a trait aux conditions qui sous-tendent leur utilisation, aux données additionnelles requises pour leur application, aux tests d'adéquation de l'ajustement du modèle, aux objectifs d'inférence qu'elles permettent de satisfaire, à l'efficacité statistique, aux demandes de ressources informatiques et aux compétences que doivent posséder les analystes qui ajustent les modèles. La dernière partie de l'article présente les résultats de simulations conçues pour comparer le biais, la variance et les taux de couverture des diverses approches dans le cas de l'estimation des coefficients de régression linéaire en partant d'un échantillon stratifié. Enfin, l'article se termine par une brève discussion des questions en suspens.

      Date de diffusion : 2011-12-21

    • Articles et rapports : 12-001-X201100211605
      Description :

      L'imputation composite est fréquemment employée dans les enquêtes auprès des entreprises. Le terme « composite » signifie que l'on utilise plus d'une méthode d'imputation pour remplacer les valeurs manquantes d'une variable d'intérêt. La littérature consacrée à l'estimation de la variance sous imputation composite est peu abondante. Afin de surmonter ce problème, nous examinons une extension de la méthodologie élaborée par Särndal (1992). Cette extension est de nature assez générale et est facile à mettre en oeuvre, à condition d'utiliser des méthodes d'imputation linéaires pour remplacer les valeurs manquantes. Cette catégorie de méthodes comprend l'imputation par régression linéaire, l'imputation par donneur et l'imputation par valeur auxiliaire, parfois appelée imputation « cold deck » ou imputation par substitution. Elle englobe donc les méthodes les plus couramment utilisées par les organismes statistiques nationaux pour imputer les valeurs manquantes. Notre méthodologie a été intégrée au Système d'estimation de la variance due à la non-réponse et à l'imputation (SEVANI), mis au point à Statistique Canada. Une étude par simulation est effectuée pour en évaluer les propriétés.

      Date de diffusion : 2011-12-21
    Données (2)

    Données (2) ((2 résultats))

    • Microdonnées à grande diffusion : 99M0001X
      Description : Le Fichier des particuliers, Enquête nationale auprès des ménages, 2011 (fichier de microdonnées à grande diffusion) fournit des données sur les caractéristiques de la population canadienne. Le fichier contient un échantillon de 2,7 % de réponses anonymes tirées du questionnaire de l’Enquête nationale auprès des ménages (ENM) de 2011. Le fichier a été examiné minutieusement afin de garantir l'entière confidentialité des réponses individuelles et les identificateurs géographiques ont été limités aux provinces/territoires et aux régions métropolitaines. Avec ces 133 variables, cet outil de travail complet est excellent pour les analystes des politiques, les organismes de sondage, les chercheurs en sciences sociales et quiconque souhaitant modéliser et effectuer des analyses de régression statistique à l'aide des données de l'Enquête nationale auprès des ménages.

      Les fichiers de microdonnées sont les seuls produits donnant aux utilisateurs l'accès à des données non agrégées. L'utilisateur des FMGD peut grouper et manipuler ces variables en fonction de ses besoins et de l'objet de ses recherches. Il peut produire des totalisations qui sont exclues des autres produits l'ENM ou analyser les relations entre les variables en effectuant divers tests statistiques. Les FMGD donnent rapidement accès à une très vaste base de données sociales et économiques sur le Canada et ses habitants.

      Ce produit, offert en format DVD-ROM, comprend le fichier de données (en format ASCII); la documentation de l'utilisateur et l'information complémentaire; toutes les ententes de licence; ainsi que les programmes (codes sources) SAS, SPSS, et Stata pour permettre aux utilisateurs de lire l'ensemble des enregistrements. Afin d'utiliser ce produit, il est important de noter que les utilisateurs doivent posséder des connaissances pour manipuler des ensembles de données (ou des logiciels) comme SAS ou SPSS ou Stata.

      Date de diffusion : 2023-09-12

    • Tableau : 75-001-X19890022277
      Description :

      Cette étude compare le revenu des travailleurs bilingues et unilingues dans trois centres urbains: Montréal, Toronto et Ottawa-Hull. Les différences de revenu sont examinées à la lumière de plusieurs considérations d'ordre démographique. L'auteur examine aussi les différences entre les travailleurs bilingues et unilingues sur le plan des emplois détenus.

      Date de diffusion : 1989-06-30
    Analyses (173)

    Analyses (173) (60 à 70 de 173 résultats)

    • Articles et rapports : 11F0019M2006280
      Géographie : Province ou territoire
      Description :

      Avant 1989, les bénéficiaires sans enfants de l'aide sociale au Québec qui étaient âgés de moins de 30 ans touchaient des prestations beaucoup moins élevées que les bénéficiaires âgés de plus de 30 ans. Nous utilisons cette discontinuité précise dans la politique pour estimer les effets de l'aide sociale sur divers résultats sur le marché du travail, à partir d'une approche de discontinuité de la régression. Nous disposons de preuves convaincantes que des prestations d'aide sociale plus généreuses ont pour effet de réduire l'emploi. Les estimations réagissent peu au degré de souplesse de la spécification et se comportent très bien lorsque nous contrôlons l'hétérogénéité non observée à partir d'une spécification de différence première. Enfin, nous montrons que les estimateurs de la différence des différences couramment utilisés peuvent produire des résultats médiocres lorsqu'ils sont utilisés avec des groupes témoins mal choisis.

      Date de diffusion : 2006-06-14

    • Articles et rapports : 11F0019M2006276
      Géographie : Canada
      Description :

      Fondée sur un échantillon tiré de l'Enquête sur la dynamique du travail et du revenu (EDTR) de 1993 à 1998 et 1996 à 2001 de Statistique Canada, l'étude a permis de déterminer que les travailleurs jeunes (de 17 à 34 ans) et célibataires étaient plus susceptibles que les travailleurs plus âgés (de 35 à 59 ans) et mariés ou divorcés de poursuivre des études à l'âge adulte et d'obtenir un certificat postsecondaire. Les travailleurs ayant un niveau de scolarité inférieur au secondaire et pouvant avoir le plus grand besoin d'augmenter leur investissement en capital humain étaient moins susceptibles de poursuivre des études à l'âge adulte que les travailleurs ayant un diplôme d'études secondaires ou un niveau d'études supérieur au secondaire.

      L'étude montre que les travailleurs de sexe masculin qui avaient obtenu un certificat postsecondaire tout en continuant de travailler pour le même employeur affichaient généralement des augmentations de salaire et des hausses des gains plus importantes que leurs homologues qui n'étaient pas retournés aux études, quel que soit l'âge et le niveau de scolarité initial. En revanche, les hommes qui avaient obtenu un certificat et changé d'emploi généralement n'avaient pas obtenu de rendement significatif de leur niveau de scolarité plus élevé, sauf pour les jeunes hommes (de 17 à 34 ans) chez lesquels l'obtention d'un certificat a donné un rendement plus significatif qu'ils aient changé d'employeur ou continué de travailler pour le même employeur.

      L'obtention d'un certificat a entraîné un rendement important au chapitre des salaires et des gains pour les femmes plus âgées (de 35 à 59 ans) qui ont continué de travailler pour le même employeur et des gains salariaux significatifs pour les jeunes femmes qui ont changé d'employeur.

      Date de diffusion : 2006-03-24

    • Articles et rapports : 11F0019M2006273
      Géographie : Canada
      Description :

      L'immigration récente semble se caractériser par la fréquence des retours ou des reprises de migration, d'où d'importantes conséquences sur la contribution qu'apportent les immigrants à l'économie de leur pays d'accueil. À un certain nombre d'immigrants, il peut en coûter très peu pour s'établir à nouveau dans le pays d'attache. L'absence de données longitudinales a empêché d'analyser outre mesure si la récente migration internationale a plus l'apparence de la migration interne, c'est à-dire d'une migration provisoire avec un retour possible si la transplantation s'est révélée une erreur. Un nouvel ensemble disponible de données longitudinales sur toute la population immigrante au Canada depuis 1980 nous donne la possibilité de répondre aux questions que pose la nouvelle migration. Les résultats indiquent qu'une forte proportion d'immigrants, plus particulièrement les travailleurs qualifiés et les entrepreneurs, sont hautement mobiles sur le plan international.

      Date de diffusion : 2006-03-01

    • Articles et rapports : 12-001-X20050029053
      Description :

      Nous proposons un modèle de régression spatial dans un cadre général de modèles à effets mixtes pour résoudre le problème de l'estimation pour petits domaines. L'utilisation d'un paramètre d'autocorrélation commun à l'ensemble de petits domaines permet de produire de meilleures estimations pour petits domaines. Ce paramètre s'avère fort utile dans les cas où l'utilisation de variables exogènes améliore peu ces estimations. Nous élaborons également une approximation de deuxième ordre de l'erreur quadratique moyenne (EQM) du meilleur prédicteur linéaire sans biais empirique (MPLNBE). En suivant l'approche des filtres de Kalman, nous proposons un modèle spatio temporel. Dans ce cas également, nous obtenons une approximation de deuxième ordre de la EQM du MPLNBE. À titre d'étude de cas, nous utilisons les données de la série chronologique sur les dépenses de consommation mensuelles par habitant (DCMH) provenant de la National Sample Survey Organisation (NSSO) du ministère de la Statistique et de la Mise en 'uvre des programmes du gouvernement de l'Inde pour valider les modèles.

      Date de diffusion : 2006-02-17

    • Articles et rapports : 11F0027M2005036
      Géographie : Canada
      Description :

      Burkart et Ellingsen (2004) ont élaboré un modèle de crédit commercial et de limitation du crédit bancaire selon lequel les entreprises à faible ou moyenne rentabilité auraient recours au crédit commercial pour atténuer les effets de limitation du crédit bancaire. Nous testons cette prédiction et plusieurs autres produites par ce modèle à partir d'un vaste échantillon composé de plus de 28 000 entreprises canadiennes. Au lieu de choisir arbitrairement les entreprises susceptibles de voir leur crédit limité, nous faisons appel à une méthode endogène pour classer les entreprises de l'échantillon selon leur rentabilité. Les données confirment assez nettement les principales prédictions du modèle de Burkart et Ellingsen. Nous constatons que les entreprises ayant une rentabilité moyenne substituent le crédit commercial au crédit bancaire, sans doute dans le but d'atténuer l'incidence de la limitation du crédit bancaire. Dans le cas des entreprises peu rentables, le crédit commercial est corrélé positivement avec le crédit bancaire, ce qui tend à indiquer que ce groupe subit des contraintes à la fois sur le marché du crédit bancaire et sur celui du crédit commercial et qu'il ne peut recourir autant à ce dernier pour amortir les chocs négatifs. Autre conclusion : rares seraient les entreprises canadiennes, même parmi les plus rentables, à n'être soumises à aucune contrainte d'emprunt. Enfin, les entreprises peu rentables qui accusent une baisse d'activité et se heurtent à de grosses difficultés accordent proportionnellement plus de crédit commercial que celles en meilleure santé financière.

      Date de diffusion : 2005-11-04

    • Articles et rapports : 12-001-X20050018083
      Description :

      L'élaboration de la méthodologie de couplage informatisé d'enregistrements a facilité la réalisation d'études cohorte de mortalité dans lesquelles les données sur l'exposition provenant d'une base de données sont couplées électroniquement à celles sur la mortalité provenant d'une autre base de données. Cependant, cette méthode donne lieu à des erreurs de couplage causées par l'appariement incorrect d'une personne figurant dans l'une des bases de données à une personne différente dans l'autre base de données. Dans le présent article, nous examinons l'effet des erreurs de couplage sur les estimations d'indicateurs épidémiologiques du risque, comme les ratios standardisés de mortalité et les paramètres des modèles de régression du risque relatif. Nous montrons que les effets sur les nombres observé et attendu de décès sont de sens opposé et que, par conséquent, ces indicateurs peuvent présenter un biais et une variabilité supplémentaire en présence d'erreurs de couplage.

      Date de diffusion : 2005-07-21

    • Articles et rapports : 12-001-X20050018089
      Description :

      Nous utilisons des modèles hiérarchiques bayésiens pour analyser les données sur l'indice de masse corporelle (IMC) des enfants et des adolescents en présence de non réponse non-ignorable, c'est-à-dire informative, tirées de la troisième National Health and Nutrition Examination Survey (NHANES III). Notre objectif est de prédire l'IMC moyen en population finie et la proportion de répondants pour les domaines formés par l'âge, la race et le sexe (covariables dans les modèles de régression) pour chacun des 35 grands comtés, en tenant compte des non répondants. Nous utilisons des méthodes de Monte Carlo par chaîne de Markov pour ajuster les modèles (deux modèles de sélection et deux modèles de mélange de schémas d'observation) aux données sur l'IMC provenant de la NHANES III. Au moyen d'une mesure de déviance et d'une étude de validation croisée, nous montrons que le modèle de sélection sous non réponse non-ignorable est le meilleur des quatre modèles. Nous montrons aussi que l'inférence au sujet de l'IMC n'est pas trop sensible au choix du modèle. Nous obtenons une amélioration en incluant une régression spline dans le modèle de sélection pour tenir compte de l'évolution de la relation entre l'IMC et l'âge.

      Date de diffusion : 2005-07-21

    • Articles et rapports : 12-001-X20050018091
      Description :

      Diverses procédures en vue de construire des vecteurs de poids de régression non négatifs sont considérées. Un vecteur de poids de régression dans lequel les poids initiaux sont les inverses des probabilités de sélection conditionnelles approximatives est présenté. Une étude par simulation permet de comparer les poids obtenus par la régression pondérée, la programmation quadratique, la méthode itérative du quotient, une procédure logit et la méthode du maximum de vraisemblance.

      Date de diffusion : 2005-07-21

    • Articles et rapports : 12-001-X20050018092
      Description :

      En échantillonnage, quand on dispose d'information auxiliaire, il est bien connu que l'« estimateur (par la régression) optimal » fondé sur le plan de sondage d'un total ou d'une moyenne de population finie est (du moins asymptotiquement) plus efficace que l'estimateur GREG correspondant. Nous illustrerons ce fait au moyen de simulations avec échantillonnage stratifié à partir de populations à distribution asymétrique. Au départ, l'estimateur GREG a été construit au moyen d'un modèle linéaire de superpopulation auxiliaire. Il peut aussi être considéré comme un estimateur par calage, c'est à dire un estimateur linéaire pondéré, où les poids obéissent à l'équation de calage et, sous cette contrainte, sont aussi proches que possible des « poids d'Horvitz Thompson » originaux (d'après une mesure de distance appropriée). Nous montrons que l'estimateur optimal peut aussi être considéré comme un estimateur par calage à cet égard avec une mesure quadratique de distance étroitement liée à celle générant l'estimateur GREG. Nous donnons aussi des exemples simples révélant qu'il n'est pas toujours facile d'obtenir cette nouvelle mesure.

      Date de diffusion : 2005-07-21

    • Articles et rapports : 12-001-X20050018094
      Description :

      Les modèles de régression à erreur emboîtée sont utilisés fréquemment pour l'estimation par petits domaines et les problèmes connexes. Cependant, l'application des critères standard de sélection du modèle de régression aux modèles à erreur emboîtée donne parfois lieu à des méthodes de sélection du modèle inefficaces. Nous illustrons ce point en examinant les propriétés de la statistique C_P au moyen d'une étude par simulation de Monte Carlo. L'inefficacité de la statistique C_P peut, cependant, être corrigée grâce à une transformation appropriée des données.

      Date de diffusion : 2005-07-21
    Références (10)

    Références (10) ((10 résultats))

    • Enquêtes et programmes statistiques — Documentation : 11-522-X20010016308
      Description :

      Cette publication comporte une description détaillée des questions techniques entourant la conception et la réalisation d'enquêtes et s'adresse surtout à des méthodologistes.

      Le Census Bureau utilise une analyse des erreurs de réponse pour évaluer l'efficacité des questions d'une enquête. Pour une enquête donnée, nous choisissons les questions à analyser que nous jugeons essentielles à l'enquête ou qui sont considérées comme problématiques à la suite d'une analyse antérieure. Les questions nouvelles ou révisées sont les plus susceptibles de faire l'objet d'une réinterview, c'est-à-dire d'une nouvelle interview qui consiste à poser de nouveau à un échantillon des répondants à l'enquête un sous-ensemble de questions provenant de l'interview originale. Pour chaque question de la réinterview, nous évaluons la proportion des répondants qui donnent des réponses incohérentes. Nous utilisons l'« indice d'incohérence » pour mesurer la variance de réponse. Pour chaque question, nous indiquons si la variance de réponse est faible, moyenne ou élevée. Dans le cas d'une variance élevée, les questions font l'objet d'un test cognitif et nous recommandons des modifications à apporter aux questions.

      Pour l'analyse des erreurs de réponse de la Schools and Staffing Survey (SASS) parrainée par le National Center for Education Statistics (NCES), nous étudions également les liens possibles entre les réponses incohérentes et les caractéristiques des écoles et des enseignants qui participent à l'enquête. On peut utiliser les résultats de cette analyse pour modifier la méthode d'enquête en vue d'améliorer la qualité des données.

      Date de diffusion : 2002-09-12

    • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015656
      Description :

      Les études de séries chronologiques montrent qu'il existe une association entre la concentration des polluants atmosphériques, d'une part, et la morbidité et la mortalité, d'autre part. En général, ces études sont réalisées dans une seule ville, en appliquant diverses méthodes. Les critiques concernant ces études ont trait à la validité des ensembles de données utilisés et aux méthodes statistiques qui leur sont appliquées, ainsi qu'au manque de cohérence des résultats des études menées dans des villes différentes et même des nouvelles analyses indépendantes des données d'une ville particulière. Dans le présent article, nous examinons certaines des méthodes statistiques utilisées pour analyser un sous-ensemble de données nationales sur la pollution atmosphérique, la mortalité et les conditions météorologiques recueillies durant la National Morbidity and Mortality Air Pollution Study (NMMAPS).

      Date de diffusion : 2000-03-02

    • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015668
      Description :

      À la suite des problèmes d'estimation du sous-dénombrement qu'a posé le Recensement de l'Angleterre et du Pays de Galles de 1991, on s'est fixé comme objectif pour le Recensement de 2001 de créer une base de données entièrement corrigée pour tenir compte du sous-dénombrement net. Dans la présente communication, on examine l'application d'une méthode d'imputation pondérée par donneur qui se fonde sur des renseignements provenant tant du recensement que de l'Enquête sur la couverture du recensement (ECR). Le US Census Bureau envisage une approche similaire pour le Recensement des États-Unis de l'an 2000 (voir Isaki et coll. 1998). La méthode proposée fait la distinction entre les personnes qui ne sont pas dénombrées lors du recensement parce qu'on a manqué leur ménage et celles qui ne sont pas dénombrées dans les ménages qui ont été recensés. Les données de recensement sont couplées aux données de l'ECR. On utilise la régression logistique multinominale pour estimer la probabilité que des ménages soient omis dans le recensement, ainsi que la probabilité que des personnes ne soient pas dénombrées au sein de ménages recensés. On calcule des poids de couverture pour les ménages et pour les personnes d'après les probabilités estimatives, puis on les inègre à la méthode d'imputation par donneur.

      Date de diffusion : 2000-03-02

    • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015682
      Description :

      L'application de la méthode d'estimation à double système (EDS) aux données appariées du recensement et de l'enquête postcensitaire (EPC) afin de déterminer le sous-dénombrement net est bien comprise (Hogan, 1993). Cependant, cette méthode n'a pas été utilisée jusqu'à présent pour évaluer le sous-dénombrement net au Royaume-Uni. On l'appliquera pour la première fois à l'occasion de l'EPC de 2001. Le présent article décrit la méthodologie générale employée pour la conception de l'enquête et pour l'estimation de cette EPC (baptisée Enquête sur la couverture du Recensement de 2001). L'estimation combine l'EDS et un estimateur par quotient ou par régression. Une étude par simulations utilisant les données du Recensement de 1991 de l'Angleterre et du pays de Galles montre que le modèle du quotient est en général plus robuste que le modèle de régression.

      Date de diffusion : 2000-03-02

    • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015684
      Description :

      Il arrive souvent qu'on recueille, de façon pratiquement simultaée, la même information sur plusieurs enquêtes différentes. En France, cela est institutionnalisé dans les enquêtes auprès des ménages qui comportent un tronc commun de variables portant sur la situation démographique, l'emploi, le logement et les revenus. Ces variables sont des cofacteurs importants des variables d'intérêt de chacune des enquêtes et leur utilisation judicieuse peut permettre un renforcement des estimations dans chacune d'elle. Les techniques de calage sur information incertaine peuvent s'appliquer de façon naturelle dans ce contexte. Cela revient à rechercher le meilleur estimateur sans biais des variables communes et à caler chacune des enquêtes sur cet estimateur. Il se trouve que l'estimateur ainsi obtenu dans chaque enquête est toujours un estimateur linéaire dont les pondérations sont faciles à expliciter, que la variance s'obtient sans problème nouveau de même que l'estimation de variance. Si on veut compléter la panoplie des estimateurs par régression, on peut aussi voir cette technique comme un estimateur par ridge-regression, ou encore comme une estimation par régression bayésienne.

      Date de diffusion : 2000-03-02

    • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015688
      Description :

      Des données de sources multiples sont couplées pour examiner les liens géographique et temporel entre la pollution atmosphérique et l'asthme. Ces sources incluent les dossiers administratifs établis par 59 cabinets de médecins généralistes répartis à travers l'Angleterre et le Pays de Galles au sujet d'un demi million de patients venus à la consultation pour cause d'asthme, ainsi que des renseignements socioéconomiques recueillis dans le cadre d'une enquête par interview. Les codes postaux permettent de coupler ces données à celles sur i) la densité routière calculée pour les routes locales, ii) les émissions estimatives de dioxyde de soufre et d'oxydes d'azote, iii) la concentration de fumée noire, de dioxyde de soufre, de dioxyde d'azote et d'autres polluants mesurée ou interpolée aux emplacements des cabinets de médecins. Parallèlement, on analyse des séries chronologiques de Poisson, en tenant compte des variations entre cabinets de médecins, pour examiner les corrélations quotidiennes dans le cas des cabinets situés près des stations de surveillance de la qualité de l'air. Les analyses préliminaires montrent une association faible, en général non significative, entre les taux de consultations et les marqueurs de pollution. On examine les problèmes méthodologiques que posent la combinaison de données de ce genre et l'interprétation des résultats.

      Date de diffusion : 2000-03-02

    • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015692
      Description :

      Les tarifs d'électricité qui varient selon la période de la journée, appelés aussi tarifs horaires ou tarifs multiples, sont susceptibles d'accroître considérablement l'efficacité économique du marché de l'énergie. Plusieurs services publics d'électricité ont étudié les effets économiques des programmes de tarification selon la période de consommation offerts à leur clientèle résidentielle. On recourt ici à la méta-analyse pour regrouper les résultats de trente-huit programmes distincts en vue d'étudier l'effet des tarifs multiples sur la demande d'électricité. Quatre constations importantes se dégagent de l'analyse. Premièrement, le rapport entre le tarif de période de pointe et le tarif en période creuse doit être élevé pour que l'effet sur la demande de pointe soit important. Deuxièmement, les tarifs de période de pointe ontune incidence relativement plus importante sur la demande en été qu'en hiver. Troisièmement, les tarifs sont relativement plus efficaces s'ils sont sur une base permanente plutôt qu'expérimentale. Quatrièmement, la perception de frais en fonction de la demande concurrence les tarifs multiples ordinaires sur la demande de pointe.

      Date de diffusion : 2000-03-02

    • Enquêtes et programmes statistiques — Documentation : 11-522-X19980015017
      Description :

      Les études longitudinales avec observations répétées sur des individus permettent de mieux caractériser les changements et de mieux évaluer les facteurs de risque éventuels. On possède toutefois peu d'expérience sur l'application de modèles perfectionnés à des données longitudinales avec plan d'échantillonnage complexe. Nous présentons ici les résultats d'une comparaison de différentes méthodes d'estimation de la variance applicables à des modèles à effets aléatoires évaluant l'évolution de la fonction cognitive chez les personnes âgées. Le plan d'échantillonnage consiste en un échantillon stratifié de personnes âgées de 65 ans et plus, prélevé dans le cadre d'une étude communautaire visant à examiner les facteurs de risque de la démence. Le modèle résume l'hétérogénéité de la population, en ce qui a trait au niveau global et au taux d'évolution de la fonction cognitive, en utilisant des effets aléatoires comme coordonnée à l'origine et comme pente. Nous discutons d'une méthode de régression non pondérée avec covariables représentant les variables de stratification, d'une méthode de régression pondérée et de la méthode bootstrap; nous présentons également quelques travaux préliminaires sur la méthode de répétition équilibrée et celle du jackknife.

      Date de diffusion : 1999-10-22

    • Enquêtes et programmes statistiques — Documentation : 11-522-X19980015029
      Description :

      Dans le cas des enquêtes longitudinales, les sujets qui font partie de l'échantillon sont observés pendant plusieurs périodes. En général, cette caractéristique produit des observations dépendantes sur le même sujet, plus des corrélations ordinaires entre sujets résultant du plan d'échantillonnage. Nombre des travaux décrits dans la littérature portent surtout sur la modélisation de la moyenne marginale d'une réponse en fonction de covariables. Liang et Zeger (1986) se sont servis d'équations d'estimation généralisées nécessitant uniquement la spécification correcte de la moyenne marginale et ont obtenu les erreurs-types des estimations des paramètres de régression et les critères connexes du test de Wald, en supposant que les mesures répétées effectuées sur un sujet de l'échantillon présentent une structure de corrélation provisoire. Rotnitzky et Jewell (1990) ont développé des tests de quasi-résultat et des corrections de Rao-Scott aux tests de quasi-résultat provisoire dans le cadre de modèles marginaux. Ces méthodes sont asymptotiquement robustes en regard de la spécification erronée de la structure des corrélations propre à un sujet, mais supposent que les sujets de l'échantillon sont indépendants, ce qui n'est pas toujours vrai dans le cas de donneées d'enquêtes longitudinales complexes fondées sur un échantillonnage stratifié à plusieurs degrés. Nous proposons des tests de Wald et des tests de quasi-score asymptotiquement valides pour les données d'enquêtes longitudinales, fondés sur la méthode de linéarisation de Taylor et sur la méthode jackknife. Nous élaborons aussi d'autres tests, fondés sur les corrections apportées par Rao-Scott à des tests naïfs qui ne tiennent pas compte des caractéristiques du plan de sondage et sur les t de Bonferroni. Ces tests sont particulièrement utiles quand le nombre réel de degrés de liberté, ordinairement considéré comme égal au nombre total d'unités primaires dans l'échantillon (grappes) moins le nombre de strates, est petit.

      Date de diffusion : 1999-10-22

    • Enquêtes et programmes statistiques — Documentation : 11-522-X19980015035
      Description :

      Dans le cadre d'une enquête longitudinale effectuée pendant k périodes, certaines unités peuvent être observées pour un nombre de périodes inférieur à k. Les enquêtes avec sous-échantillons se chevauchant partiellement, les enquêtes par panel pur avec non-réponse (une enquête par panel pur étant une enquête par panel non-complétée d'échantillons supplémentaires) et les enquêtes par panel complétées par des échantillons supplémentaires pour certaines périodes en sont des exemples. Nous présentons des estimateurs par régression pour des enquêtes de ce genre. Nous examinons une application aux études spéciales liées au National Resources Inventory.

      Date de diffusion : 1999-10-22
    Date de modification :