Recherche par mot-clé

Aide à l'ordre
entrées

Résultats

Tout (58)

Tout (58) (30 à 40 de 58 résultats)

  • Articles et rapports : 11-522-X20050019438
    Description :

    Au cours des ans, une variété de normes ont vu le jour pour documenter les contenus de fichiers de données, chacune à ses fins particulières. La norme DDI (Data Documentation Initiative) est un standard technique de documentation basé sur le format XML.

    Date de diffusion : 2007-03-02

  • Articles et rapports : 11-522-X20030017606
    Description :

    Ce document porte sur le cadre d'élaboration de normes relatives aux domaines spécialisés, lequel donne une vue d'ensemble des unités statistiques et des variables utilisées à Statistique Canada. Il sert également à organiser les métadonnées et à structurer les définitions dans la Base de métadonnées intégrée (BMDI).

    Date de diffusion : 2005-01-26

  • Enquêtes et programmes statistiques — Documentation : 12-002-X20040027035
    Description :

    Lors du traitement des données du cycle 4 de l'Enquête longitudinale nationale sur les enfants et les jeunes (ELNEJ), des révisions historiques ont été apportées au trois premiers cycles de l'enquête afin de corriger des erreurs et faire une mise à jour des données. Au cours du traitement, une attention particulière a été portée à la variable PERSRUK (l'identificateur au niveau de la personne) et à la variable FIELDRUK (l'identificateur au niveau du ménage). Le même niveau d'attention n'a pas été accordé aux autres identificateurs incluent dans la base de données, soit, la variable CHILDID (un identificateur au niveau de l'enfant) et la variable _IDHD01 (un identificateur au niveau du ménage). Ces identificateurs ont été créés pour les fichiers publics et ils se retrouvent par défaut dans les fichiers maîtres. Lorsque les fichiers maîtres sont utilisés, la variable PERSRUK devrait être utilisée pour lier les différents fichiers de données de l'enquête entre eux et la variable FIELDRUK pour déterminer le ménage.

    Date de diffusion : 2004-10-05

  • Articles et rapports : 12-002-X20040016904
    Description :

    Cet article fournit un exemple pratique d'élaboration de modèle d'analyse de survie. On traitera d'abord de l'outil informatique utilisé, soit le logiciel SAS. Il sera ensuite question de la construction d'un fichier longitudinal et des défis que cela peut poser. Une attention particulière est portée aux variables explicatives qui n'ont pas une valeur constante au fil du temps. Afin d'illustrer l'approche suivie, un exemple d'application pratique sera présenté. Il s'agit d'une analyse fondée sur les données de l'Enquête sur la dynamique du travail et du revenu (EDTR), dont on utilise le premier panel observé de janvier 1993 à décembre 1998. On tirera partie de l'information de cette enquête disponible sous forme de vecteurs pour élaborer un modèle semi-paramétrique de Cox. Dans cette section, un exemple de programme informatique sera commenté. On précisera également la façon dont le logiciel traite les variables principales. Enfin, il y aura une brève description des résultats d'un modèle relativement simple.

    Date de diffusion : 2004-04-15

  • Articles et rapports : 12-002-X20040016905
    Description :

    Les ensembles de données de grande taille posent plusieurs défis aux chercheurs, surtout les moins chevronnés. L'une des tâches les plus longues et les plus frustrantes pour les chercheurs qui en sont à leurs premières armes et qui n'ont pas encore l'expérience des grands ensembles de données consiste à élaguer ou à décomposer ces derniers de manière à prendre en compte uniquement les variables et l'échantillon pertinents. La production d'un fichier de données « efficient » peut contribuer à la performance du matériel et des logiciels et atténuer la frustration ressentie par le chercheur. Nous présentons ici une procédure permettant de produire un fichier des données efficient par suite d'une telle décomposition, à l'aide d'un programme appelé Stat/Transfer.

    Date de diffusion : 2004-04-15

  • Articles et rapports : 12-001-X20020026432
    Description :

    Cet article décrit des algorithmes de stratification qui permettent de tenir compte d'une divergence entre la variable de stratification et la variable étudiée au moment de l'élaboration d'un plan de sondage stratifié. On y propose deux modèles pour caractériser la relation entre ces deux variables. L'un est un modèle de régression log-linéaire; l'autre suppose que la variable étudiée et la variable de stratification coïncident pour la plupart des unités, mais que des divergences importantes existent pour certaines unités. Ensuite, on modifie l'algorithme de stratification de Lavallée et Hidiroglou (1988) afin d'intégrer ces modèles dans la détermination des tailles d'échantillon et des limites de strate optimales pour un plan de sondage stratifié. Enfin, on illustre par un exemple la performance du nouvel algorithme de stratification, puis on présente un examen de l'application numérique de cet algorithme.

    Date de diffusion : 2003-01-29

  • Articles et rapports : 12-001-X20020026433
    Description :

    Sitter et Skinner (1994) présentent une méthode qui consiste à appliquer la programmation linéaire à la conception d'enquêtes de stratification multiple, principalement dans des situations où la taille souhaitée de l'échantillon est inférieure ou à peine supérieure au nombre total de cellules de stratification. Leur méthode repose sur une idée simple, facile à comprendre et à appliquer. Cependant, en pratique, elle a le désavantage de devenir rapidement coûteuse en raison de l'importance des calculs, à mesure qu'augmente le nombre de cellules de la stratification multiple, au point de ne pouvoir être utilisée dans la plupart des situations réelles. Dans cet article, on développe davantage cette approche de programmation linéaire et élabore des méthodes en vue de réduire le nombre de calculs, de sorte qu'il soit possible de résoudre des problèmes de grande taille.

    Date de diffusion : 2003-01-29

  • Articles et rapports : 92F0138M2001001
    Description :

    Statistique Canada utilise habituellement les régions géographiques normalisées comme « contenants » aux fins de la diffusion des données statistiques. Cependant, les structures géographiques servent également de variables, afin notamment d'apporter des précisions sur les populations rurales et urbaines dans une région précise comme une municipalité (subdivision de recensement). Néanmoins, elles font rarement l'objet de tableaux croisés en vue d'illustrer et d'analyser des phénomènes sociaux et économiques précis, tels que les types de peuplement à l'intérieur et à l'extérieur des grands centres urbains, avec une ventilation par région urbaine et région rurale.L'introduction du concept géographique - zone d'influence des régions métropolitaines de recensement et des agglomérations de recensement (ZIM) - offre des possibilités supplémentaires relativement à l'utilisation des structures géographiques comme variables à des fins d'analyse des données du recensement.Le présent document de travail vise à faire ressortir les avantages que comporte le recours aux structures géographiques comme variables en vue de mieux analyser les phénomènes sociaux et économiques, ainsi qu'à favoriser la discussion chez les utilisateurs sur l'opportunité d'utiliser ces variables et sur le potentiel offert par cette capacité grandement inutilisée des bases de données du recensement. Pour que ces objectifs se réalisent, nous présentons quatre exemples de structure géographique comme variables. Les exemples comprennent les Autochtones vivant à l'intérieur des réserves et à l'extérieur de celles-ci dans des régions urbaines et rurales au Canada, le taux de chômage des personnes qui vivent dans les régions urbaines et rurales au Canada, le loyer brut payé par les ménages locataires dans les régions urbaines et rurales au Canada, ainsi que le nombre de personnes de 15 à 24 ans migrant entre les grands centres urbains et les régions rurales et les petites villes (ZIM).

    Nous cherchons à favoriser l'utilisation des structures géographiques comme variables de recensement afin de donner aux utilisateurs les outils nécessaires pour analyser plus précisement les processus sociaux et économiques à l'oeuvre dans les régions géographiques du Canada.

    Date de diffusion : 2001-03-16

  • Enquêtes et programmes statistiques — Documentation : 85-602-X
    Description :

    L'objet du présent rapport est de faire le survol des méthodes et techniques existantes qui utilisent les identificateurs personnels en vue de réaliser le couplage des enregistrements. Ce couplage peut être décrit de façon générale comme une méthode de traitement ou de transformation des identificateurs personnels tirés des dossiers personnels enregistrés dans l'une ou plusieurs bases de données opérationnelles afin de jumeler les identificateurs et de créer un dossier composé sur un particulier. Le couplage des enregistrements ne vise pas seulement à identifier les particuliers à des fins opérationnelles, mais à établir les concordances probabilistes de degrés de fiabilité variés à des fins de rapports statistiques. Les techniques utilisées dans le cadre du couplage d'enregistrements peuvent également servir dans les enquêtes afin d'en restreindre le champ dans les bases de données, lorsque des renseignements sur les identificateurs personnels existent.

    Date de diffusion : 2000-12-05

  • Articles et rapports : 12-001-X20000015183
    Description :

    Pour les enquêtes dont la collecte des données comprend plus d'une étape, on recommande, comme méthode de correction des poids selon la non-réponse (après la première étape de la collecte des données), d'utiliser des variables auxiliaires (tirées des étapes antérieures de la collecte des données) qui sont reconnues comme des prédicteurs de la non-réponse.

    Date de diffusion : 2000-08-30
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (38)

Analyses (38) (10 à 20 de 38 résultats)

  • Articles et rapports : 12-001-X201200111683
    Description :

    Nous considérons diverses options de remplacement de la poststratification dans le cas de données croisées à deux dimensions pour lesquelles la fréquence d'au moins l'une des cellules du tableau à double entrée est trop faible pour permettre la poststratification en se basant sur cette classification double. Dans le jeu de données utilisé pour l'étude, la fréquence prévue dans la cellule la plus petite est de 0,36. Une approche consiste simplement à regrouper certaine cellules. Néanmoins, il est probable que cela détruise la structure de la classification double. Les approches de remplacement que nous proposons permettent de maintenir la classification à double entrée originale des données. Elles sont fondées sur l'étude du calage de Chang et Kott (2008). Nous choisissons des ajustements des pondérations qui dépendent des classifications marginales (mais non de la classification croisée complète) pour minimiser une fonction d'objectif correspondant aux différences entre les fréquences dans la population et dans les cellules du tableau à double entrée et leurs estimations sur échantillon. Selon la terminologie de Chang et Kott (2008), si les classifications par ligne et par colonne comprennent I et J cellules, respectivement, on obtient IJ variables de référence et I + J - 1 variables du modèle. Nous étudions les propriétés de ces estimateurs en créant des échantillons aléatoires simples pour la simulation d'après les données du Quarterly Census of Employment and Wages de 2005 tenues à jour par le Bureau of Labor Statistics. Nous procédons à la classification croisée de l'État et du groupe d'industries. Dans notre étude, comparativement à l'estimateur sans biais, les approches de calage introduisent un biais asymptotiquement négligeable, mais donnent une réduction de l'EQM pouvant aller jusqu'à 20 % pour un petit échantillon.

    Date de diffusion : 2012-06-27

  • Articles et rapports : 12-001-X201100211609
    Description :

    Le présent article propose un examen et une évaluation de l'échantillonnage équilibré par la méthode du cube. Il débute par une définition de la notion d'échantillon équilibré et d'échantillonnage équilibré, suivie par un court historique du concept d'équilibrage. Après un exposé succinct de la théorie de la méthode du cube, l'accent est mis sur les aspects pratiques de l'échantillonnage équilibré, c'est-à-dire l'intérêt de la méthode comparativement à d'autres méthodes d'échantillonnage et au calage, le domaine d'application, la précision de l'équilibrage, le choix des variables auxiliaires et les moyens de mettre la méthode en oeuvre.

    Date de diffusion : 2011-12-21

  • Articles et rapports : 12-001-X201100111451
    Description :

    Dans la méthode du calage de Deville et Särndal (1992), les équations de calage ne prennent en compte que les estimations exactes de totaux des variables auxiliaires. L'objectif de cet article est de s'intéresser à d'autres paramètres que le total pour caler. Ces paramètres que l'on qualifie de complexes sont par exemple le ratio, la médiane ou la variance de variables auxiliaires.

    Date de diffusion : 2011-06-29

  • Articles et rapports : 12-001-X200900211038
    Description :

    Nous cherchons à corriger la surestimation causée par la non-réponse de lien dans l'échantillonnage indirect lorsque l'on utilise la méthode généralisée de partage des poids (MGPP). Nous avons élaboré quelques méthodes de correction pour tenir compte de la non-réponse de lien dans la MGPP applicables lorsque l'on dispose ou non de variables auxiliaires. Nous présentons une étude par simulation de certaines de ces méthodes de correction fondée sur des données d'enquête longitudinale. Les résultats des simulations révèlent que les corrections proposées de la MGPP réduisent bien le biais et la variance d'estimation. L'accroissement de la réduction du biais est significatif.

    Date de diffusion : 2009-12-23

  • Articles et rapports : 12-001-X200900211045
    Description :

    Dans l'analyse de données d'enquête, on se sert souvent du nombre de degrés de liberté pour évaluer la stabilité des estimateurs de variance fondé sur le plan de sondage. Par exemple, ce nombre de degrés de liberté est utilisé pour construire les intervalles de confiances fondés sur des approximations de la loi t, ainsi que des tests t connexes. En outre, un petit nombre de degrés de liberté donne une idée qualitative des limites possibles d'un estimateur de variance particulier dans une application. Parfois, le calcul du nombre de degrés de liberté s'appuie sur des formes de l'approximation de Satterthwaite. Ces calculs fondés sur l'approche de Satterthwaite dépendent principalement des grandeurs relatives des variances au niveau de la strate. Cependant, pour des plans de sondage comportant la sélection d'un petit nombre d'unités primaires par strate, les estimateurs de variance au niveau de la strate classiques ne fournissent que des renseignements limités sur les variances réelles de strate. Le cas échéant, les calculs habituels fondés sur l'approche de Satterthwaite peuvent poser des problèmes, surtout dans les analyses portant sur des sous-populations concentrées dans un nombre relativement faible de strates. Pour résoudre ce problème, nous utilisons dans le présent article les estimations des variances à l'intérieur des unités primaires d'échantillonnage (variances intra-UPE) pour fournir de l'information auxiliaire sur les grandeurs relatives des variances globales au niveau de la strate. Les résultats des analyses indiquent que l'estimateur du nombre de degrés de liberté résultant est meilleur que les estimateurs de type Satterthwaite modifiés, à condition que : a) les variances globales au niveau de la strate soient approximativement proportionnelles aux variances intra-strate correspondantes et b) les variances des estimateurs de variance intra-UPE soient relativement faibles. En outre, nous élaborons des méthodes à erreurs sur les variables qui permettent de vérifier empiriquement les conditions a) et b). Pour ces vérifications de modèle, nous établissons des distributions de référence fondées sur des simulations qui diffèrent considérablement des distributions de référence fondées sur les approximations normales en grand échantillon habituelles. Nous appliquons les méthodes proposées à quatre variables de la troisième National Health and Nutrition Examination Survey (NHANES III) réalisée aux États-Unis.

    Date de diffusion : 2009-12-23

  • Articles et rapports : 12-001-X200900211046
    Description :

    Nous élaborons un modèle de régression semiparamétrique pour les enquêtes complexes. Dans ce modèle, les variables explicatives sont représentées séparément sous forme d'une partie non paramétrique et d'une partie linéaire paramétrique. Les méthodes d'estimation combinent l'estimation par la régression polynomiale locale non paramétrique et l'estimation par les moindres carrés. Nous élaborons également des résultats asymptotiques, tels que la convergence et la normalité des estimateurs des coefficients de régression et des fonctions de régression. Nous recourrons à la simulation et à des exemples empiriques tirés de l'Enquête sur la santé en Ontario de 1990 pour illustrer la performance de la méthode et les propriétés des estimations.

    Date de diffusion : 2009-12-23

  • Articles et rapports : 11-522-X200800010957
    Description :

    Les enquêtes menées auprès d'entreprises diffèrent des enquêtes menées auprès de la population ou des ménages à bien des égards. Deux des plus importantes différences sont : (a) les répondants aux enquêtes-entreprises ne répondent pas à des questions sur des caractéristiques les concernant (leurs expériences, leurs comportements, leurs attitudes et leurs sentiments), mais sur des caractéristiques de leur organisation (taille, revenu, politiques, stratégies, etc.) et (b) les répondants aux questions parlent au nom d'une organisation. Les enquêtes-entreprises théoriques diffèrent pour leur part des autres enquêtes-entreprises, comme celles des bureaux nationaux de la statistique, à bien des égards aussi. Le fait que les enquêtes-entreprises théoriques ne visent habituellement pas la production de statistiques descriptives mais plutôt la réalisation de tests d'hypothèses (relations entre variables) constitue la plus importante différence. Les taux de réponse aux enquêtes-entreprises théoriques sont très faibles, ce qui suppose un risque énorme de biais de non-réponse. Aucune tentative n'est habituellement faite pour évaluer l'importance du biais attribuable à la non-réponse, et les résultats publiés peuvent par conséquent ne pas refléter fidèlement les vraies relations au sein de la population, ce qui augmente par ricochet la probabilité que les résultats des tests soient incorrects.

    Les auteurs de la communication analysent la façon dont le risque de biais dû à la non-réponse est étudié dans les documents de recherche publiés dans les grandes revues de gestion. Ils montrent que ce biais n'est pas suffisamment évalué et que la correction du biais est difficile ou très coûteux dans la pratique, si tant est que des tentatives sont faites en ce sens. Trois façons de traiter ce problème sont examinées :(a) réunir des données par d'autres moyens que des questionnaires;(b) mener des enquêtes auprès de très petites populations;(c) mener des enquêtes avec de très petits échantillons.

    Les auteurs examinent les raisons pour lesquelles ces méthodes constituent des moyens appropriés de mise à l'essai d'hypothèses dans les populations. Les compromis concernant le choix d'une méthode sont aussi examinés.

    Date de diffusion : 2009-12-03

  • Articles et rapports : 11-522-X200800010959
    Description :

    L'Enquête unifiée auprès des entreprises (EUE) réalisée par Statistique Canada est une enquête-entreprise annuelle dont le but est d'uniformiser plus de 60 enquêtes couvrant diverses industries. À l'heure actuelle, deux types de fonctions de score sont utilisés durant la collecte des données de l'EUE pour en faire le suivi. L'objectif est d'employer une fonction de score qui maximise les taux de réponse à l'enquête pondérés par le poids économique en ce qui a trait aux principales variables d'intérêt, sous la contrainte d'un budget de suivi limité. Les deux types de fonctions de score étant fondés sur des méthodologies différentes, leur incidence sur les estimations finales pourrait ne pas être la même.

    La présente étude consiste à comparer, d'une manière générale, les deux types de fonctions de score en s'appuyant sur des données concernant la collecte recueillies au cours des deux dernières années. Aux fins des comparaisons, chaque type de fonction de score est appliqué aux mêmes données et diverses estimations de variables financières et de variables liées aux marchandises (biens et services) pour lesquelles des données sont publiées sont calculées, ainsi que leur écart par rapport à la pseudo valeur réelle et leur écart quadratique moyen, en se fondant sur chaque méthode. Ces estimations de l'écart et de l'écart quadratique moyen calculées selon chaque méthode sont ensuite utilisées pour mesurer l'effet de chaque fonction de score sur les estimations finales des variables financières et des variables liées aux biens et services.

    Date de diffusion : 2009-12-03

  • Articles et rapports : 11-522-X200800010967
    Description :

    Le présent article traite du contexte de l'utilisation du langage XBRL (eXtensible Business Reporting Language) et de la participation de Statistics Netherlands au projet de taxonomie des Pays-Bas. La discussion porte principalement sur le contexte statistique de l'utilisation de XBRL et de la taxonomie des Pays-Bas pour préciser les termes de données aux sociétés.

    Date de diffusion : 2009-12-03

  • Articles et rapports : 11-536-X200900110803
    Description :

    L'estimateur GREG « traditionnel » est utilisé ici pour renvoyer à l'estimateur de régression généralisée qui a fait l'objet de longues discussions, notamment dans le document de Särndal, Swensson et Wretman (1992). Le document résume certaines nouvelles applications de l'estimateur GREG traditionnel dans le cadre de l'estimation des totaux des sous-groupes de population ou des domaines. L'estimation GREG a été mise en pratique pour l'estimation des domaines dans Särndal (1981, 1984), Hidiroglou et Särndal (1985) et Särndal et Hidiroglou (1989); cette application a été examinée de plus près dans l'article de Estevao, Hidiroglou et Särndal (1995). Pour l'estimateur GREG traditionnel, le modèle linéaire à effets fixes sert de modèle sous-jacent de travail ou de soutien, et les totaux auxiliaires au niveau agrégé sont intégrés dans la procédure d'estimation. Dans certains modèles récents, on suppose que l'accès aux données auxiliaires au niveau de l'unité pour l'estimation GREG sur domaines est disponible. De toute évidence, l'accès au registre micro-fusionné et aux données d'enquêtes nécessite une grande souplesse pour l'estimation de domaines. Ce point de vue a été adopté pour l'estimation GREG, notamment dans Lehtonen et Veijanen (1998), Lehtonen, Särndal et Veijanen (2003, 2005), et Lehtonen, Myrskylä, Särndal et Veijanen (2007). Ces nouvelles applications englobent les cas de variables réponses continues et binaires ou polytomiques, l'utilisation de modèles mixtes linéaires généralisés comme modèles de soutien et des plans de sondage probabilistes inégaux. Les mérites relatifs et les défis associés aux divers estimateurs GREG seront soulevés.

    Date de diffusion : 2009-08-11
Références (20)

Références (20) (0 à 10 de 20 résultats)

  • Enquêtes et programmes statistiques — Documentation : 91F0015M2016012
    Description :

    Le présent article renferme de l’information pertinente à l’utilisation des variables relatives à la famille dans les fichiers de microdonnées du Recensement de la population du Canada. Ces fichiers se trouvent à Statistique Canada même, dans les centres de données de recherche (CDR) ou sous forme de fichiers de microdonnées à grande diffusion (FMGD). L’article explique certains des aspects techniques des trois versions, y compris la création de variables multiniveau à des fins analytiques.

    Date de diffusion : 2016-12-22

  • Enquêtes et programmes statistiques — Documentation : 12-002-X20040027035
    Description :

    Lors du traitement des données du cycle 4 de l'Enquête longitudinale nationale sur les enfants et les jeunes (ELNEJ), des révisions historiques ont été apportées au trois premiers cycles de l'enquête afin de corriger des erreurs et faire une mise à jour des données. Au cours du traitement, une attention particulière a été portée à la variable PERSRUK (l'identificateur au niveau de la personne) et à la variable FIELDRUK (l'identificateur au niveau du ménage). Le même niveau d'attention n'a pas été accordé aux autres identificateurs incluent dans la base de données, soit, la variable CHILDID (un identificateur au niveau de l'enfant) et la variable _IDHD01 (un identificateur au niveau du ménage). Ces identificateurs ont été créés pour les fichiers publics et ils se retrouvent par défaut dans les fichiers maîtres. Lorsque les fichiers maîtres sont utilisés, la variable PERSRUK devrait être utilisée pour lier les différents fichiers de données de l'enquête entre eux et la variable FIELDRUK pour déterminer le ménage.

    Date de diffusion : 2004-10-05

  • Enquêtes et programmes statistiques — Documentation : 85-602-X
    Description :

    L'objet du présent rapport est de faire le survol des méthodes et techniques existantes qui utilisent les identificateurs personnels en vue de réaliser le couplage des enregistrements. Ce couplage peut être décrit de façon générale comme une méthode de traitement ou de transformation des identificateurs personnels tirés des dossiers personnels enregistrés dans l'une ou plusieurs bases de données opérationnelles afin de jumeler les identificateurs et de créer un dossier composé sur un particulier. Le couplage des enregistrements ne vise pas seulement à identifier les particuliers à des fins opérationnelles, mais à établir les concordances probabilistes de degrés de fiabilité variés à des fins de rapports statistiques. Les techniques utilisées dans le cadre du couplage d'enregistrements peuvent également servir dans les enquêtes afin d'en restreindre le champ dans les bases de données, lorsque des renseignements sur les identificateurs personnels existent.

    Date de diffusion : 2000-12-05

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015658
    Description :

    Le radon, qui est un gaz dont la présence est observée naturellement dans la plupart des maisons, est un facteur de risque confirmé pour le cancer du poumon chez les humains. Le National Research Council des États-Unis (1999) vient de terminer une évaluation approfondie du risque pour la santé de l'exposition résidentielle au radon, tout en élaborant des modèles de projection du risque de cancer pulmonaire dû au radon pour l'ensemble de la population. Cette analyse indique que le radon joue possiblement un rôle dans l'étiologie de 10-15 % des cas de cancer du poumon aux États-Unis, bien que ces estimations comportent une part appréciable d'incertitude. Les auteurs présentent une analyse partielle de l'incertidude et de la variabilité des estimations du risque de cancer pulmonaire dû à l'exposition résidentielle au radon, aux États-Unis, à l'aide d'un cadre général d'analyse de l'incertitude et de la variabilité établi antérieurement par ces mêmes auteurs. Plus particulièrement, il est question des estimations de l'excès de risque relatif (EFF) par âge et du risque relatif à vie (RRV), qui varient tous deux considérablement d'une personne à l'autre.

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015660
    Description :

    Les situations qui nécessitent le couplage des enregistrements d'un ou de plusieurs fichiers sont très diverses. Dans le cas d'un seul fichier, le but du couplage est de repérer les enregistrements en double. Dans le cas de deux fichiers, il consiste à déceler les unités qui sont les mêmes dans les deux fichiers et donc de créer des paires d'enregistrements correspondants. Souvent, les enregistrements qu'il faut coupler ne contiennent aucun identificateur unique. Le couplage hiérarchique des enregistrements, le couplage probabiliste des enregistrements et l'appariement statistique sont trois méthodes applicables dans ces conditions. Nous décrivons les principales différences entre ces méthodes. Puis, nous discutons du choix des variables d'appariement, de la préparation des fichiers en prévision du couplage et de la façon dont les paires sont reconnues. Nous donnons aussi quelques conseils et quelques trucs utilisés pour coupler des fichiers. Enfin, nous présentons deux exemples : le couplage probabiliste d'enregistrements réalisé dans le cadre de la contre-vérification des données du recensement et le couplage hiérarchique des enregistrements du fichier maître des numéros d'entreprise (NE) à ceux du fichier de l'univers statistique (FUS) d'unités déclarantes non constituées en société (T1).

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015664
    Description :

    La litterature sur la statistique comprend de nombreuses études portant sur les méthodes déterministes, on trouve peu d'information sur ces méthodes. En outre, il semble qu'il n'existe pas d'études qui comparent les résultats obtenus avec les deux méthodes. Or, une telle comparaison serait utile lorsque les seuls indicateurs communs dont on dispose, et à partir desquels les bases de données doivent être couplées, sont des indicateurs indistincts, comme le nom, le sexe et la race. La présente étude compare une méthode de couplage déterministe par étapes avec la méthode probabiliste mise en oeuvre dans AUTOMATCH pour de telles situations. La comparaison porte sur un couplage de données médicales des centres régionaux de soins périnataux intensifs et de données relatives à l'éducation du ministère de l'Éducation de la Floride. Les numéros d'assurance sociale qui figurent dans les deux bases de données ont servi à valider les paires d'enregistrements après le couplage. On compare les taux de correspondance et les taux d'erreur obtenus avec les deux méthodes et on présente une discussion sur les similitudes et les différences entre les méthodes, ainsi que sur les points forts et les points faibles de chacune.

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015666
    Description :

    L'échantillon de fusion obtenu par un procédé d'appariement statistique peut être considéré comme un échantillon tiré d'une population artificielle. Nous dérivons la distribution de cette population artificielle. Si la corrélation entre des variables spécifiques est le seul point d'intérêt, l'importance de l'indépendance conditionnelle peut être réduite. Dans une étude de simulation, nous examinons les effets de la non-confirmation de certaines hypothèses formulées pour obtenir la distribution de la population artificielle. Enfin, nous présentons des idées au sujet de l'établissement de la supposée indépendance conditionnelle par l'analyse de classes latentes.

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015670
    Description :

    Pour atteindre efficacement leur public cible, les publicistes et les planificateurs des médias ont besoin de savoir quel pourcentage de consommateurs de Coke diète regardent Alerte à Malibu, ou combien de clients d'AT&T ont vu une annonce de Sprint au cours de la dernière semaine. Toutes les données pertinentes pourraient en théorie être recueillies auprès de chacun des répondants. Toutefois, la collecte de données précises et détaillées serait très coûteuse. Elle imposerait en outre un fardeau important aux répondants, compte tenu de la technique de collecte utilisée actuellement. Pour le moment, ces donées sont recueillies dans le cadre d'enquêtes distinctes, en Nouvelle-Zélande et dans nombre d'autres pays. Le niveau d'exposition aux principaux médias est mesuré de façon continue, et les études sur l'utilisation des produits sont répandues. Des techniques d'appariement statistique fournissent une façon de combiner ces sources d'information distinctes. La base de données des cotes d'écoute de la télévision en Nouvelle-Zélande a été combinée à une enquête multi-intérêts portant sur le profit des lecteurs d'imprimés et la consommation de produits, grâce à l'appariement statistique. Le service Panorama qui en résulte répond aux besoins d'information des publicistes et des planificateurs des médias. L'expérience a été reprise depuis en Australie. Le présent document porte sur l'élaboration du cadre d'appariement statistique qui a servi à la combinaison de ces bases de données, ainsi que sur les connaissances heuristiques et les techniques qui ont été utilisées. Celles-ci comprenaient notamment une expérience effectuée au moyen d'un plan de contrôle visant à déterminer les variables d'appariement importantes. Le présent document comprend en outre un résumé des études ayant servi à l'évaluation et à la validation des résultats combinés. Trois critères principaux d'évaluation ont été utilisés, à savoir : la précision des résultats combinés, la stabilité de ces résultats et la préservation des résultats des bases de données originales. On aborde aussi la façon dont les conditions préalables à la combinaison de ces bases de données ont été respectées. Les différences entre les techniques d'analyse utilisées dans les deux bases de données d'origine ont constitué l'obstacle le plus important à cette étape. Enfin, des suggestions pour le de'veloppement de systèmes d'appariement statistique similaires ailleurs sont fournis.

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015672
    Description :

    La fusion des données qui est examinée ici consiste à créer un ensemble de données provenant de sources différentes sur des variables que l'on n'observe pas conjointement. Supposons par exemple que l'on dispose d'observations pour (X,Z) sur un ensemble de personnes et pour (Y,Z) sur un autre ensemble de personnes. Chacune des variables X, Y et Z peut être vectorielle. L'objectif principal consiste à obtenir des précisions sur la distribution conjointe de (X,Y) en se servant de Z comme ce que l'on conviendra d'appeler variable d'appariement. Toutefois, on s'efforce d'abord d'extraire des ensembles de données distincts autant de renseignements que possible sur la distribution conjointe de (X,Y,Z). On ne peut procéder à ce genre de fusion que moyennant la précision de certaines propriétés distributionnelles pour les données fusionnées, à savoir l'hypothèse d'indépendance conditionnelle étant donné les variables d'appariement. Classiquement, l'examen des variables fusionnées consiste à déterminer dans quelle mesure cette hypothèse sous-jacente est appropriée. Ici, nous examinons le problème sous un angle différent. La question que nous nous posons est celle de savoir comment il est possible d'estimer des distributions dans des situations où l'on ne dispose que d'observations provenant de certaines distributions marginales. Nous pouvons la résoudre en appliquant le critère d'entropie maximale. Nous montrons notamment qu'il est possible d'interpréter les données créés par fusion de données de sources différentes comme un cas spécial de cette situation. Par conséquent, nous dérivons l'hypothèse nécessaire d'indépendance conditionnelle en tant que conséquence du type de données disponibles.

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015684
    Description :

    Il arrive souvent qu'on recueille, de façon pratiquement simultaée, la même information sur plusieurs enquêtes différentes. En France, cela est institutionnalisé dans les enquêtes auprès des ménages qui comportent un tronc commun de variables portant sur la situation démographique, l'emploi, le logement et les revenus. Ces variables sont des cofacteurs importants des variables d'intérêt de chacune des enquêtes et leur utilisation judicieuse peut permettre un renforcement des estimations dans chacune d'elle. Les techniques de calage sur information incertaine peuvent s'appliquer de façon naturelle dans ce contexte. Cela revient à rechercher le meilleur estimateur sans biais des variables communes et à caler chacune des enquêtes sur cet estimateur. Il se trouve que l'estimateur ainsi obtenu dans chaque enquête est toujours un estimateur linéaire dont les pondérations sont faciles à expliciter, que la variance s'obtient sans problème nouveau de même que l'estimation de variance. Si on veut compléter la panoplie des estimateurs par régression, on peut aussi voir cette technique comme un estimateur par ridge-regression, ou encore comme une estimation par régression bayésienne.

    Date de diffusion : 2000-03-02
Date de modification :