Recherche par mot-clé

Aide à l'ordre
entrées

Résultats

Tout (9)

Tout (9) ((9 résultats))

  • Enquêtes et programmes statistiques — Documentation : 85-602-X
    Description :

    L'objet du présent rapport est de faire le survol des méthodes et techniques existantes qui utilisent les identificateurs personnels en vue de réaliser le couplage des enregistrements. Ce couplage peut être décrit de façon générale comme une méthode de traitement ou de transformation des identificateurs personnels tirés des dossiers personnels enregistrés dans l'une ou plusieurs bases de données opérationnelles afin de jumeler les identificateurs et de créer un dossier composé sur un particulier. Le couplage des enregistrements ne vise pas seulement à identifier les particuliers à des fins opérationnelles, mais à établir les concordances probabilistes de degrés de fiabilité variés à des fins de rapports statistiques. Les techniques utilisées dans le cadre du couplage d'enregistrements peuvent également servir dans les enquêtes afin d'en restreindre le champ dans les bases de données, lorsque des renseignements sur les identificateurs personnels existent.

    Date de diffusion : 2000-12-05

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015640
    Description :

    Les auteurs décrivent comment SN se prépare à entrer dans l'ère nouvelle de la production de statistiques déclenchée par les progès technologiques. Le décloisonnement du traitement des données est une caractéristique fondamentale du virage vers cette ère nouvelle. Les auteurs expliquent comment les nouveaux outils techniques et méthodologiques influenceront les processus et leur organisation. Ils insistent tout spécialement sur la cohérence du contenu des statistiques et de leur présentation aux utilisateurs qui est l'un des avantages les plus importants qu'offrent ces nouveaux outils, mais aussi l'un des plus grands défis à relever.

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015642
    Description :

    La Base de données longitudinale sur l'immigration (BDIM) établit un lien entre les dossiers administratifs de l'immigration et de l'impôt en une source exhaustive de données sur le comportement sur le marché du travail de la population des immigrants ayant obtenu le droit d'établissement au Canada. Elle porte sur la période de 1980 à 1995 et sera mise à jour en 1999 pour l'année d'imposition 1996. Statistique Canada gère la base de données pour le compte d'un consortium fédéral-provincial dirigé par Citoyenneté et Immigration Canada. Le présent document examine les enjeux du développement d'une base de données longitudinale combinant des dossiers administratifs, à l'appui de la recherche et de l'analyse en matière de politiques. L'accent est plus particulièrement mis sur les questions de méthodologie, de concepts, d'analyse et de protection des renseignements personnels découlant de la création et du développement continu de cette base de données. Le présent document aborde en outre brièvement les résultats des recherches, qui illustrent les liens en matière de résultats des politiques que la BDIM permet aux décideurs d'examiner.

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015650
    Description :

    La U.S. Manufacturing Plant Ownership Change Database (OCD) a été créée d'après des données sur les usines extraites de la Longitudinal Research Database (LRD) du Census Bureau. Elle contient des données sur toutes les usines de fabrication qui ont changé de propriétaire au moins une fois entre 1963 et 1992. L'auteur fait le point sur l'OCD et examine les possibilités de recherche. Pour utiliser empiriquement ces possibilités, il se sert de données extraites de la base de données pour étudier le lien entre les changements de propriété et les fermetures d'usines.

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015656
    Description :

    Les études de séries chronologiques montrent qu'il existe une association entre la concentration des polluants atmosphériques, d'une part, et la morbidité et la mortalité, d'autre part. En général, ces études sont réalisées dans une seule ville, en appliquant diverses méthodes. Les critiques concernant ces études ont trait à la validité des ensembles de données utilisés et aux méthodes statistiques qui leur sont appliquées, ainsi qu'au manque de cohérence des résultats des études menées dans des villes différentes et même des nouvelles analyses indépendantes des données d'une ville particulière. Dans le présent article, nous examinons certaines des méthodes statistiques utilisées pour analyser un sous-ensemble de données nationales sur la pollution atmosphérique, la mortalité et les conditions météorologiques recueillies durant la National Morbidity and Mortality Air Pollution Study (NMMAPS).

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015664
    Description :

    La litterature sur la statistique comprend de nombreuses études portant sur les méthodes déterministes, on trouve peu d'information sur ces méthodes. En outre, il semble qu'il n'existe pas d'études qui comparent les résultats obtenus avec les deux méthodes. Or, une telle comparaison serait utile lorsque les seuls indicateurs communs dont on dispose, et à partir desquels les bases de données doivent être couplées, sont des indicateurs indistincts, comme le nom, le sexe et la race. La présente étude compare une méthode de couplage déterministe par étapes avec la méthode probabiliste mise en oeuvre dans AUTOMATCH pour de telles situations. La comparaison porte sur un couplage de données médicales des centres régionaux de soins périnataux intensifs et de données relatives à l'éducation du ministère de l'Éducation de la Floride. Les numéros d'assurance sociale qui figurent dans les deux bases de données ont servi à valider les paires d'enregistrements après le couplage. On compare les taux de correspondance et les taux d'erreur obtenus avec les deux méthodes et on présente une discussion sur les similitudes et les différences entre les méthodes, ainsi que sur les points forts et les points faibles de chacune.

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015668
    Description :

    À la suite des problèmes d'estimation du sous-dénombrement qu'a posé le Recensement de l'Angleterre et du Pays de Galles de 1991, on s'est fixé comme objectif pour le Recensement de 2001 de créer une base de données entièrement corrigée pour tenir compte du sous-dénombrement net. Dans la présente communication, on examine l'application d'une méthode d'imputation pondérée par donneur qui se fonde sur des renseignements provenant tant du recensement que de l'Enquête sur la couverture du recensement (ECR). Le US Census Bureau envisage une approche similaire pour le Recensement des États-Unis de l'an 2000 (voir Isaki et coll. 1998). La méthode proposée fait la distinction entre les personnes qui ne sont pas dénombrées lors du recensement parce qu'on a manqué leur ménage et celles qui ne sont pas dénombrées dans les ménages qui ont été recensés. Les données de recensement sont couplées aux données de l'ECR. On utilise la régression logistique multinominale pour estimer la probabilité que des ménages soient omis dans le recensement, ainsi que la probabilité que des personnes ne soient pas dénombrées au sein de ménages recensés. On calcule des poids de couverture pour les ménages et pour les personnes d'après les probabilités estimatives, puis on les inègre à la méthode d'imputation par donneur.

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015680
    Description :

    La combinaison de bases de données par des méthodes de couplage d'enregistrements en vue d'augmenter la quantité d'information disponible est un phénomène de plus en plus fréquent. Si l'on ne peut se fonder sur aucun identificateur unique pour procéder à l'appariement des enregistrements, on recourt au couplage probabiliste. On apparie un enregistrement du premier fichier à un enregistrement du deuxième avec une certaine probabilité et on décide ensuite si cette paire d'enregistrements représente ou non un appariement vrai. Habituellement, ce processus nécessite une certaine intervention manuelle qui demande du temps et des ressources humaines. En outre, il aboutit souvent à un couplage complexe. Autrement dit, au lieu d'être systématiquement biunivoque (un à un), le couplage entre les deux bases de données peut être multi-univoque (plusieurs à un), co-univoque (un à plusieurs) ou multivoque (plusieurs à plusieurs).

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015690
    Description :

    La construction de l'échantillon virtuel est réalisé en deux étapes. La première consiste, en partant d'un panel maître, à effectuer une Analyse des Correspondances Multiples (ACM) sur des variables fondamentales pour l'étude. Puis, on génére aléatoirement des individus muets à partir de la distribution de chaque facteur significatif de l'analyse. Enfin, pour chaque individu, on génére une valeur pour chaque variable fondamentale la plus liée à un des facteurs précédents. Cette méthode assure un tirage indépendant d'ensembles de variables. La seconde étape consiste à greffer un certain nombre d'autres bases de données, dont on donnera les propriétés requises. On génére une variable à rajouter à l'aide de sa distribution estimée, avec un modèle linéaire généralisé en fonction des variables communes et celles qui ont déjà été rajoutées. Le même procédé est alors utilisé pour greffer les autres échantillons. Nous avons appliqué cette méthode pour générer un échantillon virtuel à partir de deux enquêtes. L'échantillon virtuel généré a été validé à l'aide de tests de comparaison d'échantillons. Les résultats obtenus sont positifs et montrent la faisabilité de cette méthode.

    Date de diffusion : 2000-03-02
Données (0)

Données (0) (0 résultat)

Aucun contenu disponible actuellement

Analyses (0)

Analyses (0) (0 résultat)

Aucun contenu disponible actuellement

Références (9)

Références (9) ((9 résultats))

  • Enquêtes et programmes statistiques — Documentation : 85-602-X
    Description :

    L'objet du présent rapport est de faire le survol des méthodes et techniques existantes qui utilisent les identificateurs personnels en vue de réaliser le couplage des enregistrements. Ce couplage peut être décrit de façon générale comme une méthode de traitement ou de transformation des identificateurs personnels tirés des dossiers personnels enregistrés dans l'une ou plusieurs bases de données opérationnelles afin de jumeler les identificateurs et de créer un dossier composé sur un particulier. Le couplage des enregistrements ne vise pas seulement à identifier les particuliers à des fins opérationnelles, mais à établir les concordances probabilistes de degrés de fiabilité variés à des fins de rapports statistiques. Les techniques utilisées dans le cadre du couplage d'enregistrements peuvent également servir dans les enquêtes afin d'en restreindre le champ dans les bases de données, lorsque des renseignements sur les identificateurs personnels existent.

    Date de diffusion : 2000-12-05

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015640
    Description :

    Les auteurs décrivent comment SN se prépare à entrer dans l'ère nouvelle de la production de statistiques déclenchée par les progès technologiques. Le décloisonnement du traitement des données est une caractéristique fondamentale du virage vers cette ère nouvelle. Les auteurs expliquent comment les nouveaux outils techniques et méthodologiques influenceront les processus et leur organisation. Ils insistent tout spécialement sur la cohérence du contenu des statistiques et de leur présentation aux utilisateurs qui est l'un des avantages les plus importants qu'offrent ces nouveaux outils, mais aussi l'un des plus grands défis à relever.

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015642
    Description :

    La Base de données longitudinale sur l'immigration (BDIM) établit un lien entre les dossiers administratifs de l'immigration et de l'impôt en une source exhaustive de données sur le comportement sur le marché du travail de la population des immigrants ayant obtenu le droit d'établissement au Canada. Elle porte sur la période de 1980 à 1995 et sera mise à jour en 1999 pour l'année d'imposition 1996. Statistique Canada gère la base de données pour le compte d'un consortium fédéral-provincial dirigé par Citoyenneté et Immigration Canada. Le présent document examine les enjeux du développement d'une base de données longitudinale combinant des dossiers administratifs, à l'appui de la recherche et de l'analyse en matière de politiques. L'accent est plus particulièrement mis sur les questions de méthodologie, de concepts, d'analyse et de protection des renseignements personnels découlant de la création et du développement continu de cette base de données. Le présent document aborde en outre brièvement les résultats des recherches, qui illustrent les liens en matière de résultats des politiques que la BDIM permet aux décideurs d'examiner.

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015650
    Description :

    La U.S. Manufacturing Plant Ownership Change Database (OCD) a été créée d'après des données sur les usines extraites de la Longitudinal Research Database (LRD) du Census Bureau. Elle contient des données sur toutes les usines de fabrication qui ont changé de propriétaire au moins une fois entre 1963 et 1992. L'auteur fait le point sur l'OCD et examine les possibilités de recherche. Pour utiliser empiriquement ces possibilités, il se sert de données extraites de la base de données pour étudier le lien entre les changements de propriété et les fermetures d'usines.

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015656
    Description :

    Les études de séries chronologiques montrent qu'il existe une association entre la concentration des polluants atmosphériques, d'une part, et la morbidité et la mortalité, d'autre part. En général, ces études sont réalisées dans une seule ville, en appliquant diverses méthodes. Les critiques concernant ces études ont trait à la validité des ensembles de données utilisés et aux méthodes statistiques qui leur sont appliquées, ainsi qu'au manque de cohérence des résultats des études menées dans des villes différentes et même des nouvelles analyses indépendantes des données d'une ville particulière. Dans le présent article, nous examinons certaines des méthodes statistiques utilisées pour analyser un sous-ensemble de données nationales sur la pollution atmosphérique, la mortalité et les conditions météorologiques recueillies durant la National Morbidity and Mortality Air Pollution Study (NMMAPS).

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015664
    Description :

    La litterature sur la statistique comprend de nombreuses études portant sur les méthodes déterministes, on trouve peu d'information sur ces méthodes. En outre, il semble qu'il n'existe pas d'études qui comparent les résultats obtenus avec les deux méthodes. Or, une telle comparaison serait utile lorsque les seuls indicateurs communs dont on dispose, et à partir desquels les bases de données doivent être couplées, sont des indicateurs indistincts, comme le nom, le sexe et la race. La présente étude compare une méthode de couplage déterministe par étapes avec la méthode probabiliste mise en oeuvre dans AUTOMATCH pour de telles situations. La comparaison porte sur un couplage de données médicales des centres régionaux de soins périnataux intensifs et de données relatives à l'éducation du ministère de l'Éducation de la Floride. Les numéros d'assurance sociale qui figurent dans les deux bases de données ont servi à valider les paires d'enregistrements après le couplage. On compare les taux de correspondance et les taux d'erreur obtenus avec les deux méthodes et on présente une discussion sur les similitudes et les différences entre les méthodes, ainsi que sur les points forts et les points faibles de chacune.

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015668
    Description :

    À la suite des problèmes d'estimation du sous-dénombrement qu'a posé le Recensement de l'Angleterre et du Pays de Galles de 1991, on s'est fixé comme objectif pour le Recensement de 2001 de créer une base de données entièrement corrigée pour tenir compte du sous-dénombrement net. Dans la présente communication, on examine l'application d'une méthode d'imputation pondérée par donneur qui se fonde sur des renseignements provenant tant du recensement que de l'Enquête sur la couverture du recensement (ECR). Le US Census Bureau envisage une approche similaire pour le Recensement des États-Unis de l'an 2000 (voir Isaki et coll. 1998). La méthode proposée fait la distinction entre les personnes qui ne sont pas dénombrées lors du recensement parce qu'on a manqué leur ménage et celles qui ne sont pas dénombrées dans les ménages qui ont été recensés. Les données de recensement sont couplées aux données de l'ECR. On utilise la régression logistique multinominale pour estimer la probabilité que des ménages soient omis dans le recensement, ainsi que la probabilité que des personnes ne soient pas dénombrées au sein de ménages recensés. On calcule des poids de couverture pour les ménages et pour les personnes d'après les probabilités estimatives, puis on les inègre à la méthode d'imputation par donneur.

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015680
    Description :

    La combinaison de bases de données par des méthodes de couplage d'enregistrements en vue d'augmenter la quantité d'information disponible est un phénomène de plus en plus fréquent. Si l'on ne peut se fonder sur aucun identificateur unique pour procéder à l'appariement des enregistrements, on recourt au couplage probabiliste. On apparie un enregistrement du premier fichier à un enregistrement du deuxième avec une certaine probabilité et on décide ensuite si cette paire d'enregistrements représente ou non un appariement vrai. Habituellement, ce processus nécessite une certaine intervention manuelle qui demande du temps et des ressources humaines. En outre, il aboutit souvent à un couplage complexe. Autrement dit, au lieu d'être systématiquement biunivoque (un à un), le couplage entre les deux bases de données peut être multi-univoque (plusieurs à un), co-univoque (un à plusieurs) ou multivoque (plusieurs à plusieurs).

    Date de diffusion : 2000-03-02

  • Enquêtes et programmes statistiques — Documentation : 11-522-X19990015690
    Description :

    La construction de l'échantillon virtuel est réalisé en deux étapes. La première consiste, en partant d'un panel maître, à effectuer une Analyse des Correspondances Multiples (ACM) sur des variables fondamentales pour l'étude. Puis, on génére aléatoirement des individus muets à partir de la distribution de chaque facteur significatif de l'analyse. Enfin, pour chaque individu, on génére une valeur pour chaque variable fondamentale la plus liée à un des facteurs précédents. Cette méthode assure un tirage indépendant d'ensembles de variables. La seconde étape consiste à greffer un certain nombre d'autres bases de données, dont on donnera les propriétés requises. On génére une variable à rajouter à l'aide de sa distribution estimée, avec un modèle linéaire généralisé en fonction des variables communes et celles qui ont déjà été rajoutées. Le même procédé est alors utilisé pour greffer les autres échantillons. Nous avons appliqué cette méthode pour générer un échantillon virtuel à partir de deux enquêtes. L'échantillon virtuel généré a été validé à l'aide de tests de comparaison d'échantillons. Les résultats obtenus sont positifs et montrent la faisabilité de cette méthode.

    Date de diffusion : 2000-03-02
Date de modification :