Assurance de la qualité

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Géographie

2 facets displayed. 0 facets selected.

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (250)

Tout (250) (220 à 230 de 250 résultats)

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19980015028
    Description :

    Nous abordons le problème de l'estimation des statistiques sur la dynamique du revenu calculées d'après les données d'enquêtes longitudinales complexes. En outre, nous comparons deux estimateurs (fondés sur le plan d'échantillonnage) de proportions longitudinales et de taux de transition, du point de vue de la variabilité, dans le cas de taux d'érosion élevé. Un des estimateurs est fondé sur des échantillons transversaux pour l'estimation des bornes de catégories de revenu à chaque période, ainsi que sur un échantillon longitudinal pour l'estimation des dénombrements longitudinaux. L'autre estimateur est entièrement fondé sur l'échantillon longitudinal pour l'estimation des bornes de catégories et pour les dénombrements longitudinaux. Nous établissons des estimateurs de variance par la linéarisation de Taylor, tant pour l'estimateur longitudinal que pour l'estimateur mixte, dans le cas où l'on présume qu'il n'y a aucun changement dans la population, et pour l'estimateur mixte, dans le cas où la population subit des changements.

    Date de diffusion : 1999-10-22

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19980015029
    Description :

    Dans le cas des enquêtes longitudinales, les sujets qui font partie de l'échantillon sont observés pendant plusieurs périodes. En général, cette caractéristique produit des observations dépendantes sur le même sujet, plus des corrélations ordinaires entre sujets résultant du plan d'échantillonnage. Nombre des travaux décrits dans la littérature portent surtout sur la modélisation de la moyenne marginale d'une réponse en fonction de covariables. Liang et Zeger (1986) se sont servis d'équations d'estimation généralisées nécessitant uniquement la spécification correcte de la moyenne marginale et ont obtenu les erreurs-types des estimations des paramètres de régression et les critères connexes du test de Wald, en supposant que les mesures répétées effectuées sur un sujet de l'échantillon présentent une structure de corrélation provisoire. Rotnitzky et Jewell (1990) ont développé des tests de quasi-résultat et des corrections de Rao-Scott aux tests de quasi-résultat provisoire dans le cadre de modèles marginaux. Ces méthodes sont asymptotiquement robustes en regard de la spécification erronée de la structure des corrélations propre à un sujet, mais supposent que les sujets de l'échantillon sont indépendants, ce qui n'est pas toujours vrai dans le cas de donneées d'enquêtes longitudinales complexes fondées sur un échantillonnage stratifié à plusieurs degrés. Nous proposons des tests de Wald et des tests de quasi-score asymptotiquement valides pour les données d'enquêtes longitudinales, fondés sur la méthode de linéarisation de Taylor et sur la méthode jackknife. Nous élaborons aussi d'autres tests, fondés sur les corrections apportées par Rao-Scott à des tests naïfs qui ne tiennent pas compte des caractéristiques du plan de sondage et sur les t de Bonferroni. Ces tests sont particulièrement utiles quand le nombre réel de degrés de liberté, ordinairement considéré comme égal au nombre total d'unités primaires dans l'échantillon (grappes) moins le nombre de strates, est petit.

    Date de diffusion : 1999-10-22

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19980015034
    Description :

    Nous avons estimé un modèle de progression scolaire au secondaire à l'aide de données tirées de l'Enquête auprès des sortants (EAS) de 1991, qui a été effectuée par Statistique Canada. Les informations sur lesquelles est fondé le modèle de progression scolaire comprennent le niveau de scolarité actuel et les réponses à des questions rétrospectives portant sur les dates des évènements de scolarisation. Ces données ont permis de reconstituer de manière approximative l'historique des évènements éducatifs de chaque répondant. Le modèle de progression scolaire a été conçu pour être inclus dans un modèle plus vaste de micro-simulation à temps continu. Les principaux éléments du modèle comportent l'estimation (par âge, mois de naissance et saison, dans le cas des deux sexes et dans chaque province) des taux d'obtention de diplômes, de décrochage scolaire, de retour à l'école et d'obtention du diplôme après un décrochage. Ces estimations ont été renforcées à l'aide de données auxiliaires tirées du Recensement de 1991 et de données administratives.

    Date de diffusion : 1999-10-22

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19980015035
    Description :

    Dans le cadre d'une enquête longitudinale effectuée pendant k périodes, certaines unités peuvent être observées pour un nombre de périodes inférieur à k. Les enquêtes avec sous-échantillons se chevauchant partiellement, les enquêtes par panel pur avec non-réponse (une enquête par panel pur étant une enquête par panel non-complétée d'échantillons supplémentaires) et les enquêtes par panel complétées par des échantillons supplémentaires pour certaines périodes en sont des exemples. Nous présentons des estimateurs par régression pour des enquêtes de ce genre. Nous examinons une application aux études spéciales liées au National Resources Inventory.

    Date de diffusion : 1999-10-22

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19980015036
    Description :

    En tant que généralisation de la régression logistique, la régression logistique multivariée, introduite par Glonek et McCullagh (1995), facilite l'analyse des données longitudinales en acceptant les observations répétées et dépendantes d'une variable nominale ainsi que des jeux de réponses incomplets. L'auteur montre comment étendre cette méthode au traitement des données d'une enquête complexe et en fournit l'illustration grâce à l'Enquête sur la population active suisse. Il examine également l'incidence des poids d'échantillonnage sur l'estimation des paramètres et des erreurs-types.

    Date de diffusion : 1999-10-22

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19980015037
    Description :

    Pour des données longitudinales, les modéles mixtes sont fréquemment utilisés puisqu'ils permettent de tenir compte de la corrélation entre les observations provenant d'un même individu. Le modèle pour un mélange fini de distributions peut être considéré comme un cas particulier d'un modéle mixte. Dans ce document, on portera l'attention sur la méthode du maximum de vraisemblance. La maximisation de la fonction de vraisemblance pour un mélange fini de distributions est généralement plus ardue que dans le cas usuel d'une seule distribution et peut exiger beaucoup de temps. L'objectif de ce travail a donc consisté principalement à déterminer le(s) algorithme(s) qui satisfait(ont) au mieux les critères de temps d'exécution et d'efficacité pour trouver la solution. Pour atteindre cet objectif, on a effectué une étude de simulation. On n'a considéré que la situation dans laquelle la variable dépendante est dichotomique. Cette situation est très utile en pratique puisqu'elle sert, entre autres, à modéliser des durées discrètes telle que la durée dans l'état "faible revenu".

    Date de diffusion : 1999-10-22

  • Articles et rapports : 12-001-X19990014717
    Description :

    L'Enquête britannique sur la population active (EPA) utilise un plan d'échantillonnage avec renouvellement, chaque ménage de l'échantillon étant conservé pendant cinq trimestres consécutifs. Le fait de relier ensemble les renseignements sur les mêmes personnes d'un trimestre à l'autre produit une source potentiellement très riche des données longitudinales. Cependant, il y a de graves risques de distorsion dans les résultats du fait de cette liaison longitudinale, surtout en raison de l'érosion de l'échantillon, et des erreurs de réponse, ce qui peut produire de faux flux entre les situations au regard de l'activité économique. Le présent document décrit les premiers résultats d'investigations menées par l'Office for National Statistics (ONS) quant à la nature et à l'ampleur des problèmes.

    Date de diffusion : 1999-10-08

  • Articles et rapports : 62F0014M1997009
    Géographie : Canada
    Description :

    Un programme d'étude visant à explorer la faisabilité d'utiliser l'approche hédonique pour effectuer des corrections de qualité pour les articles d'habillement dans l'indice des prix à la consommation (IPC) a été récemment lancé par la Division des prix. Ce document est le premier d'une série qui vise à dériver des corrections de qualité hédoniques pour les chemises de ville pour hommes. On construit d'abord une base de données des caractéristiques de qualité, à partir de laquelle on estime deux modèles hédoniques expérimentaux. Un de ces modèles sert ensuite à produire des corrections de qualité hédoniques pour toutes les substitutions de chemises survenues après mai 1995 et jusqu'en juin 1996. On compare ensuite ces valeurs avec les corrections de qualité utilisées dans l'IPC officiel. Bien que les résultats ne soient que préliminaires, trois importantes conclusions peuvent déjà être dégagées. Tout d'abord, les corrections de qualité dérivées par l'approche hédonique par opposition à l'approche traditionnelle sont très différentes, au moins au niveau des substitutions individuelles. Il serait, toutefois, prématuré de tenter de dire laquelle des deux approches est la plus exacte. En second lieu, il faudra une amélioration considérable de l'intégrité des données sur les caractéristiques de qualité pour que l'approche hédonique puisse jamais être considérée comme viable dans la production courante de l'IPC. Enfin, l'amélioration de la source des données sur les caractéristiques de qualité serait utile, que l'approche hédonique soit ou non retenue pour les corrections de qualité. Cela pourrait notamment se faire par l'adoption de la formule de la liste de contrôle, qui est la procédure actuellement en vigueur aux États-Unis et en Suède.

    Date de diffusion : 1999-05-13

  • Articles et rapports : 62F0014M1998011
    Géographie : Canada
    Description :

    Ce document est le deuxième d'une série qui fait le point sur les résultats d'une étude ayant pour objet d'explorer la faisabilité d'utiliser l'approche hédonique pour apporter des corrections de qualité à la composante de l'habillement de l'indice des prix à la consommation (IPC). Dans cette phase de l'étude, nous avons élaboré deux listes de contrôle préliminaires pour obtenir des prix et des caractéristiques de qualité sur les chemises de ville pour hommes et les vestons sport pour hommes. On a ensuite employé ces listes pour recueillir des données sur place à l'égard d'échantillons étendus de l'IPC pour ces deux articles. Jusqu'à maintenant, la base de données sur les chemises de ville pour hommes a servi à dériver un modèle hédonique. Voici les principales conclusions qu'on peut faire jusqu'ici : 1) les listes de contrôle constituent une amélioration marquée par rapport à la méthode d'observation actuelle, et elle devrait être poursuivie pour tous les articles d'habillement de l'IPC; 2) si l'approche hédonique de correction de qualité des articles d'habillement doit être officiellement adoptée, il faudra alors augmenter la taille des échantillons de l'IPC, du moins de façon périodique, afin de permettre une estimation; 3) nous avons besoin d'une plus grande expérience de l'approche hédonique en mode de recherche, en utilisant des articles d'habillement plus complexes, avant de pouvoir dire si cette approche devrait officiellement remplacer la méthode actuelle de correction de qualité des articles d'habillement.

    Date de diffusion : 1999-05-13

  • Articles et rapports : 62F0014M1998012
    Géographie : Canada
    Description :

    Le présent document examine les méthodes d'ajustement utilisées pour tenir compte de la variation de qualité dans l'Indice des Prix à la Consommation canadien pour la période 1989-1994. On y constate que, dans la plupart des cas, la pratique canadienne actuelle fait en sorte que le remplacement d'un produit par un autre, d'une variété de produit par une autre ou d'un point de vente par un autre n'ait aucune répercussion sur l'indice global. Les principales exceptions à ce résultat surviennent au moment du remplacement des variétés de produits qui ne sont achetés qu'occasionnellement, et lorsqu'à la suite d'un choix au jugé, il est établi que le ratio de qualité de l'ancienne variété par rapport à la nouvelle ne correspond pas au ratio de leurs prix. Dans ces cas, il y a sur l'indice un effet ascendant ou descendant, selon que la variation de prix signalée est plus élevée ou plus basse que la variation de qualité. Au cours de ces six années visées par cette étude, il y a eu une corrélation entre le rapport des prix d'une variété et ses remplacements et le mouvement de l'indice qui résulte du choix au jugé. Le sens et l'ampleur de la répercussion sur l'indice dépend en grande partie du fait qu'un article est remplacé par un autre dont le prix est plus élevé ou plus bas. Pour ces raisons, le papier conclut que plus d'attention devrait être consacrée à faire en sorte que la sélection de produits soit plus représentative des ventes actuelles que dans le passé.

    Date de diffusion : 1999-05-13
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (171)

Analyses (171) (0 à 10 de 171 résultats)

  • Revues et périodiques : 75F0002M
    Description : Cette série comprend de la documentation détaillée sur revenu, notamment les problèmes de conception, l'évaluation qualitative des données et les recherches préliminaires.
    Date de diffusion : 2024-02-22

  • Articles et rapports : 13-604-M2024001
    Description : Cette documentation donne un aperçu de la méthodologie utilisée pour élaborer les comptes économiques répartis pour le secteur des ménages publiés en janvier 2024 pour les années de références de 2010 à 2023. Elle présente le cadre et les étapes de la production de renseignements sur les répartitions qui sont conformes aux Comptes du Bilan National et à d'autres concepts liés aux comptes nationaux. Elle inclut également un rapport sur la qualité des répartitions estimées.
    Date de diffusion : 2024-01-22

  • Articles et rapports : 13-604-M2023001
    Description : Cette documentation donne un aperçu de la méthodologie utilisée pour élaborer les comptes économiques répartis pour le secteur des ménages publiés en mars 2023 pour les années de références de 2010 à 2022. Elle présente le cadre et les étapes de la production de renseignements sur les répartitions qui sont conformes aux Comptes du Bilan National et à d'autres concepts liés aux comptes nationaux. Elle inclut également un rapport sur la qualité des répartitions estimées.
    Date de diffusion : 2023-03-31

  • Articles et rapports : 13-604-M2022002
    Description :

    Cette documentation donne un aperçu de la méthodologie utilisée pour élaborer les comptes économiques répartis pour le secteur des ménages publiés en août 2022 pour les années de références de 2010 à 2021. Elle présente le cadre et les étapes de la production de renseignements sur les répartitions qui sont conformes aux Comptes du Bilan National et à d'autres concepts liés aux comptes nationaux. Elle inclut également un rapport sur la qualité des répartitions estimées.

    Date de diffusion : 2022-08-03

  • Articles et rapports : 11-522-X202100100015
    Description : Les agences nationales de statistique telles que Statistique Canada se doivent de communiquer la qualité de l’information statistique aux utilisateurs. Les méthodes traditionnellement utilisées pour le faire sont fondées sur des mesures de l’erreur d’échantillonnage. Elles ne sont donc pas adaptées aux estimations produites à partir des données administratives pour lesquelles les sources d’erreur principales sont non dues à l’échantillonnage. Une approche plus adaptée à ce contexte pour rapporter la qualité des estimations présentées dans un tableau multidimensionnel est décrite dans cet article. Des indicateurs de qualité ont été dérivés pour diverses étapes de traitement post-acquisition, comme le couplage, le géocodage et l’imputation, par domaine d’estimation. Un algorithme de partitionnement a ensuite servi à regrouper les domaines présentant des niveaux de qualité similaires pour une estimation donnée. Des cotes visant à informer les utilisateurs sur la qualité relative des estimations d’un domaine à l’autre ont été attribuées aux groupes ainsi formés. Cet indicateur, nommé l’indicateur composite de la qualité (ICQ), a été développé et appliqué de façon expérimentale dans le cadre du Programme de la statistique du logement canadien (PSLC) qui a comme objectif la production de statistiques officielles sur le secteur du logement résidentiel au Canada par l’intégration de multiples sources de données administratives.

    Mots Clés : Apprentissage automatique non supervisé, assurance de la qualité, données administratives, intégration des données, partitionnement.

    Date de diffusion : 2021-10-22

  • Articles et rapports : 11-522-X202100100023
    Description :

    Notre société devient de plus en plus numérique et offre de multiples possibilités de maximiser notre utilisation des données dans l’intérêt du public, par un éventail de sources, de types de données et de technologies pour nous permettre de mieux informer le public sur les questions sociales et économiques et de contribuer à l’élaboration et à l’évaluation efficaces des politiques gouvernementales. Un facteur important pour concrétiser le potentiel d’utilisation des données aux fins de recherche et de statistiques d’intérêt public est la garantie de l’utilisation des données de manière éthiquement appropriée. Au début de l’année, la United Kingdom Statistics Authority a lancé le Centre for Applied Data Ethics afin de fournir des services, des conseils, des formations et des orientations concernant l’éthique des données à la communauté des analystes du Royaume-Uni. Le Centre a développé un cadre et un portefeuille de services pour donner les moyens aux analystes de tenir compte de l’éthique de leur recherche rapidement et facilement, dès la phase de conception de la recherche, promouvant ainsi une culture de l’éthique dès la conception. Le présent article donne un aperçu de ce cadre, des services de soutien aux utilisateurs qui l’accompagnent et de l’incidence de ce travail.

    Mots clés : éthique des données; données; recherche et statistiques

    Date de diffusion : 2021-10-22

  • Articles et rapports : 13-604-M2021001
    Description :

    Cette documentation donne un aperçu de la méthodologie utilisée pour élaborer les comptes économiques répartis pour le secteur des ménages publiés en septembre 2021 pour les années de références de 2010 à 2020. Elle présente le cadre et les étapes de la production de renseignements sur les répartitions qui sont conformes aux Comptes du Bilan National et à d'autres concepts liés aux comptes nationaux. Elle inclut également un rapport sur la qualité des répartitions estimées.

    Date de diffusion : 2021-09-07

  • Stats en bref : 89-20-00062020001
    Description :

    Dans cette vidéo, on vous présentera les fondements de la qualité des données, qui peuvent se résumer en six dimensions, ou six façons différentes de penser à la qualité. Vous apprendrez également comment chaque dimension peut être utilisée pour évaluer la qualité des données.

    Date de diffusion : 2020-09-23

  • Stats en bref : 89-20-00062020008
    Description :

    L’exactitude est l’une des six dimensions de la qualité des données qui sont prises en compte à Statistique Canada. L’exactitude s’entend de la mesure dans laquelle les données rendent compte de la vérité ou de ce qui s’est réellement produit. Dans cette vidéo, nous présenterons des méthodes pour mettre en lumière le concept d’exactitude, sur le plan de la validité et de la précision. Nous discuterons également des méthodes de validation et de vérification de l’exactitude des valeurs de données.

    Date de diffusion : 2020-09-23

  • Articles et rapports : 13-604-M2020002
    Description :

    Cette documentation donne un aperçu de la méthodologie utilisée pour élaborer les comptes économiques répartis pour le secteur des ménages publiés en juin 2020 pour les années de références de 2010 à 2020. Elle présente le cadre et les étapes de la production de renseignements sur les répartitions qui sont conformes aux comptes du bilan national et à d'autres concepts liés aux comptes nationaux. Elle inclut également un rapport sur la qualité des répartitions estimées.

    Date de diffusion : 2020-06-26
Références (78)

Références (78) (40 à 50 de 78 résultats)

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015658
    Description :

    Le radon, qui est un gaz dont la présence est observée naturellement dans la plupart des maisons, est un facteur de risque confirmé pour le cancer du poumon chez les humains. Le National Research Council des États-Unis (1999) vient de terminer une évaluation approfondie du risque pour la santé de l'exposition résidentielle au radon, tout en élaborant des modèles de projection du risque de cancer pulmonaire dû au radon pour l'ensemble de la population. Cette analyse indique que le radon joue possiblement un rôle dans l'étiologie de 10-15 % des cas de cancer du poumon aux États-Unis, bien que ces estimations comportent une part appréciable d'incertitude. Les auteurs présentent une analyse partielle de l'incertidude et de la variabilité des estimations du risque de cancer pulmonaire dû à l'exposition résidentielle au radon, aux États-Unis, à l'aide d'un cadre général d'analyse de l'incertitude et de la variabilité établi antérieurement par ces mêmes auteurs. Plus particulièrement, il est question des estimations de l'excès de risque relatif (EFF) par âge et du risque relatif à vie (RRV), qui varient tous deux considérablement d'une personne à l'autre.

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015660
    Description :

    Les situations qui nécessitent le couplage des enregistrements d'un ou de plusieurs fichiers sont très diverses. Dans le cas d'un seul fichier, le but du couplage est de repérer les enregistrements en double. Dans le cas de deux fichiers, il consiste à déceler les unités qui sont les mêmes dans les deux fichiers et donc de créer des paires d'enregistrements correspondants. Souvent, les enregistrements qu'il faut coupler ne contiennent aucun identificateur unique. Le couplage hiérarchique des enregistrements, le couplage probabiliste des enregistrements et l'appariement statistique sont trois méthodes applicables dans ces conditions. Nous décrivons les principales différences entre ces méthodes. Puis, nous discutons du choix des variables d'appariement, de la préparation des fichiers en prévision du couplage et de la façon dont les paires sont reconnues. Nous donnons aussi quelques conseils et quelques trucs utilisés pour coupler des fichiers. Enfin, nous présentons deux exemples : le couplage probabiliste d'enregistrements réalisé dans le cadre de la contre-vérification des données du recensement et le couplage hiérarchique des enregistrements du fichier maître des numéros d'entreprise (NE) à ceux du fichier de l'univers statistique (FUS) d'unités déclarantes non constituées en société (T1).

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015664
    Description :

    La litterature sur la statistique comprend de nombreuses études portant sur les méthodes déterministes, on trouve peu d'information sur ces méthodes. En outre, il semble qu'il n'existe pas d'études qui comparent les résultats obtenus avec les deux méthodes. Or, une telle comparaison serait utile lorsque les seuls indicateurs communs dont on dispose, et à partir desquels les bases de données doivent être couplées, sont des indicateurs indistincts, comme le nom, le sexe et la race. La présente étude compare une méthode de couplage déterministe par étapes avec la méthode probabiliste mise en oeuvre dans AUTOMATCH pour de telles situations. La comparaison porte sur un couplage de données médicales des centres régionaux de soins périnataux intensifs et de données relatives à l'éducation du ministère de l'Éducation de la Floride. Les numéros d'assurance sociale qui figurent dans les deux bases de données ont servi à valider les paires d'enregistrements après le couplage. On compare les taux de correspondance et les taux d'erreur obtenus avec les deux méthodes et on présente une discussion sur les similitudes et les différences entre les méthodes, ainsi que sur les points forts et les points faibles de chacune.

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015666
    Description :

    L'échantillon de fusion obtenu par un procédé d'appariement statistique peut être considéré comme un échantillon tiré d'une population artificielle. Nous dérivons la distribution de cette population artificielle. Si la corrélation entre des variables spécifiques est le seul point d'intérêt, l'importance de l'indépendance conditionnelle peut être réduite. Dans une étude de simulation, nous examinons les effets de la non-confirmation de certaines hypothèses formulées pour obtenir la distribution de la population artificielle. Enfin, nous présentons des idées au sujet de l'établissement de la supposée indépendance conditionnelle par l'analyse de classes latentes.

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015668
    Description :

    À la suite des problèmes d'estimation du sous-dénombrement qu'a posé le Recensement de l'Angleterre et du Pays de Galles de 1991, on s'est fixé comme objectif pour le Recensement de 2001 de créer une base de données entièrement corrigée pour tenir compte du sous-dénombrement net. Dans la présente communication, on examine l'application d'une méthode d'imputation pondérée par donneur qui se fonde sur des renseignements provenant tant du recensement que de l'Enquête sur la couverture du recensement (ECR). Le US Census Bureau envisage une approche similaire pour le Recensement des États-Unis de l'an 2000 (voir Isaki et coll. 1998). La méthode proposée fait la distinction entre les personnes qui ne sont pas dénombrées lors du recensement parce qu'on a manqué leur ménage et celles qui ne sont pas dénombrées dans les ménages qui ont été recensés. Les données de recensement sont couplées aux données de l'ECR. On utilise la régression logistique multinominale pour estimer la probabilité que des ménages soient omis dans le recensement, ainsi que la probabilité que des personnes ne soient pas dénombrées au sein de ménages recensés. On calcule des poids de couverture pour les ménages et pour les personnes d'après les probabilités estimatives, puis on les inègre à la méthode d'imputation par donneur.

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015670
    Description :

    Pour atteindre efficacement leur public cible, les publicistes et les planificateurs des médias ont besoin de savoir quel pourcentage de consommateurs de Coke diète regardent Alerte à Malibu, ou combien de clients d'AT&T ont vu une annonce de Sprint au cours de la dernière semaine. Toutes les données pertinentes pourraient en théorie être recueillies auprès de chacun des répondants. Toutefois, la collecte de données précises et détaillées serait très coûteuse. Elle imposerait en outre un fardeau important aux répondants, compte tenu de la technique de collecte utilisée actuellement. Pour le moment, ces donées sont recueillies dans le cadre d'enquêtes distinctes, en Nouvelle-Zélande et dans nombre d'autres pays. Le niveau d'exposition aux principaux médias est mesuré de façon continue, et les études sur l'utilisation des produits sont répandues. Des techniques d'appariement statistique fournissent une façon de combiner ces sources d'information distinctes. La base de données des cotes d'écoute de la télévision en Nouvelle-Zélande a été combinée à une enquête multi-intérêts portant sur le profit des lecteurs d'imprimés et la consommation de produits, grâce à l'appariement statistique. Le service Panorama qui en résulte répond aux besoins d'information des publicistes et des planificateurs des médias. L'expérience a été reprise depuis en Australie. Le présent document porte sur l'élaboration du cadre d'appariement statistique qui a servi à la combinaison de ces bases de données, ainsi que sur les connaissances heuristiques et les techniques qui ont été utilisées. Celles-ci comprenaient notamment une expérience effectuée au moyen d'un plan de contrôle visant à déterminer les variables d'appariement importantes. Le présent document comprend en outre un résumé des études ayant servi à l'évaluation et à la validation des résultats combinés. Trois critères principaux d'évaluation ont été utilisés, à savoir : la précision des résultats combinés, la stabilité de ces résultats et la préservation des résultats des bases de données originales. On aborde aussi la façon dont les conditions préalables à la combinaison de ces bases de données ont été respectées. Les différences entre les techniques d'analyse utilisées dans les deux bases de données d'origine ont constitué l'obstacle le plus important à cette étape. Enfin, des suggestions pour le de'veloppement de systèmes d'appariement statistique similaires ailleurs sont fournis.

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015672
    Description :

    La fusion des données qui est examinée ici consiste à créer un ensemble de données provenant de sources différentes sur des variables que l'on n'observe pas conjointement. Supposons par exemple que l'on dispose d'observations pour (X,Z) sur un ensemble de personnes et pour (Y,Z) sur un autre ensemble de personnes. Chacune des variables X, Y et Z peut être vectorielle. L'objectif principal consiste à obtenir des précisions sur la distribution conjointe de (X,Y) en se servant de Z comme ce que l'on conviendra d'appeler variable d'appariement. Toutefois, on s'efforce d'abord d'extraire des ensembles de données distincts autant de renseignements que possible sur la distribution conjointe de (X,Y,Z). On ne peut procéder à ce genre de fusion que moyennant la précision de certaines propriétés distributionnelles pour les données fusionnées, à savoir l'hypothèse d'indépendance conditionnelle étant donné les variables d'appariement. Classiquement, l'examen des variables fusionnées consiste à déterminer dans quelle mesure cette hypothèse sous-jacente est appropriée. Ici, nous examinons le problème sous un angle différent. La question que nous nous posons est celle de savoir comment il est possible d'estimer des distributions dans des situations où l'on ne dispose que d'observations provenant de certaines distributions marginales. Nous pouvons la résoudre en appliquant le critère d'entropie maximale. Nous montrons notamment qu'il est possible d'interpréter les données créés par fusion de données de sources différentes comme un cas spécial de cette situation. Par conséquent, nous dérivons l'hypothèse nécessaire d'indépendance conditionnelle en tant que conséquence du type de données disponibles.

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015674
    Description :

    L'influence de l'environnement sur la santé est un sujet de préoccupation croissante, plus particulièrement les effets de l'émission de polluants industriels dans l'atmosphère, le sol et l'eau. L'évaluation des risques que comporte une source de pollution donnée pour la santé publique est souvent effectuée à l'aide de données démographiques, environementales et relatives à la santé qui sont recueillies couramment par des organismes gouvernementaux. Ces ensembles de données présentent des différences d'échantillonnage notables sur les plans géographique et temporel; ces différences se répercutent sur les analyses épidémiologiques qui utilisent conjointement de tels ensembles. Au Royaumi-Uni, les problèmes de santé sont enregistrés individuellement pour chaque personne. Sont également indiqués le code de cause de maladie, la date du diagnostic ou du décès, et en utilisant le code postal de l'unité comme référence géographique. Par contre, les données démographiques relatives aux petites régions sont enregistrées uniquement lors du recensement décennal et sont diffusés comme données de niveau régional dans des zones qui ne correspondent pas à celles des codes postaux. Des données relatives à l'exposition ambiante sont pourtant disponibles à un autre niveau, selon le type d'exposition et la source des mesures.

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015678
    Description :

    Un modèle d'affectation des ressources en matière de soins de santé selon les besoins de la population a été conçu et mis en application, l'âge, le sexe et l'état de santé des habitants ayant été utilisés pour évaluer les besoins de la population ontarienne en matière de soins de santé. Pour élaborer ce modèle, on a combiné les données provinciales sur l'autoévaluation de la santé et de l'utilisation des services de santé, selon l'âge et le sexe, obtenues auprès de 62 413 répondants de l'Enquête sur la santé en Ontario (ESO) de 1990 et les données sur les dépenses provinciales en soins de santé pour l'exercice 1995-1996, selon l'âge et le sexe. Ce modèle ne comprenait que les services visés par l'ESO (omnipraticiens, médecins spécialistes, optométrie, physiothérapie, chiropractie et soins de courte durée). La répartition de l'utilisation et des dépenses entre les diverses catégories d'âge, de sexe et d'état de santé a été utilisée pour établir les proportions appropriées de ressources en matière de soins de santé pour chaque combinaison âge-sexe-état de santé. Ces proportions ont par la suite été appliquées aux populations des régions géographiques, à partir des données sur l'âge, le sexe et l'état de santé provenant de l'ESO, ainsi que des estimations plus récentes de la population, afin de déterminer les affectations pour chaque région. Le total de ces affectations en dollars devait correspondre au montant du budget provincial de 1995-1996. Les affectations ainsi calculées ont été comparées à celles de 1995-1996 pour déterminer dans quelle mesure elles étaient effectivement compatibles avec les besoins relatifs de la population des régions de l'Ontario.

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015680
    Description :

    La combinaison de bases de données par des méthodes de couplage d'enregistrements en vue d'augmenter la quantité d'information disponible est un phénomène de plus en plus fréquent. Si l'on ne peut se fonder sur aucun identificateur unique pour procéder à l'appariement des enregistrements, on recourt au couplage probabiliste. On apparie un enregistrement du premier fichier à un enregistrement du deuxième avec une certaine probabilité et on décide ensuite si cette paire d'enregistrements représente ou non un appariement vrai. Habituellement, ce processus nécessite une certaine intervention manuelle qui demande du temps et des ressources humaines. En outre, il aboutit souvent à un couplage complexe. Autrement dit, au lieu d'être systématiquement biunivoque (un à un), le couplage entre les deux bases de données peut être multi-univoque (plusieurs à un), co-univoque (un à plusieurs) ou multivoque (plusieurs à plusieurs).

    Date de diffusion : 2000-03-02
Date de modification :