Recherche par mot-clé

Filtrer les résultats par

Aide à la recherche
Currently selected filters that can be removed

Mot(s)-clé(s)

Contenu

1 facets displayed. 0 facets selected.
Aide à l'ordre
entrées

Résultats

Tout (94)

Tout (94) (0 à 10 de 94 résultats)

  • Articles et rapports : 11-522-X202200100001
    Description : Le couplage d’enregistrements vise à mettre en évidence les paires d’enregistrements liées à la même unité et observées dans deux ensembles de données différents, disons A et B. Fellegi et Sunter (1969) proposent de mettre à l’essai chaque paire d’enregistrements, qu’elle soit générée à partir de l’ensemble de paires appariées ou non. La fonction de décision est le rapport entre m(y) et u(y), les probabilités d’observer une comparaison y d’un ensemble de k>3 variables d’identification clés dans une paire d’enregistrements, sous l’hypothèse que la paire constitue, respectivement, un appariement ou non. On estime habituellement ces paramètres au moyen de l’algorithme EM en utilisant comme données les comparaisons pour toutes les paires du produit cartésien ?=A×B. On émet l’hypothèse que ces observations (sur les comparaisons et sur l’état des paires comme appariement ou non) sont générées indépendamment des autres paires, hypothèse caractérisant la majeure partie de la littérature sur le couplage d’enregistrements et mise en œuvre dans les outils logiciels (p. ex., RELAIS, Cibella et coll. 2012). Au contraire, les comparaisons y et l’état d’appariement dans O sont dépendants de manière déterministe. Par conséquent, les estimations sur m(y) et u(y) fondées sur l’algorithme EM sont généralement mauvaises. Ce fait compromet l’efficacité de l’application de la méthode de Fellegi-Sunter, ainsi que le calcul automatique des mesures de la qualité et la possibilité d’appliquer des méthodes efficaces aux fins d’estimation du modèle sur des données couplées (p. ex. les fonctions de régression), comme dans Chambers et coll. (2015). Nous proposons d’examiner O au moyen d’un ensemble d’échantillons, chacun tiré de manière à préserver l’indépendance des comparaisons entre les paires d’enregistrements sélectionnées. Les simulations sont encourageantes.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 11-522-X202200100002
    Description : Les auteures ont utilisé le progiciel de couplage probabiliste Splink mis au point par le ministère de la Justice du Royaume-Uni pour relier les données du recensement de l’Angleterre et du pays de Galles à elles-mêmes afin de trouver des réponses en double au recensement. Un grand ensemble étalon-or des doublons confirmés du recensement était disponible, ce qui signifiait que la qualité des résultats de la mise en œuvre de Splink pouvait être assurée. Le présent article décrit la mise en œuvre et les fonctionnalités de Splink, donne des détails sur les configurations et les paramètres que nous avons utilisés pour ajuster Splink à notre projet en particulier, et donne les résultats que nous avons obtenus.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 11-522-X202200100012
    Description : Au Bureau central de la statistique des Pays-Bas (CBS), pour certains secteurs économiques, deux séries d’indices de chiffre d’affaires intra-annuels partiellement indépendantes sont disponibles : une série mensuelle fondée sur des données d’enquête et une série trimestrielle fondée sur les données de la taxe sur la valeur ajoutée pour les petites unités et sur des données d’enquête réutilisées pour les autres unités. Le CBS vise à étalonner la série mensuelle d’indices de chiffre d’affaires aux données trimestrielles du recensement à une fréquence trimestrielle. Pour l’heure, cela n’est pas réalisable, car les données fiscales ont une distribution trimestrielle différente, le chiffre d’affaires étant relativement grand au quatrième trimestre de l’année et plus faible au premier trimestre. Dans la présente étude, nous cherchons à décrire cette tendance trimestrielle présentant un écart au niveau micro. Nous avons élaboré auparavant un modèle de mélange utilisant des niveaux de chiffre d’affaires absolus pouvant expliquer en partie les distributions trimestrielles. Étant donné que les niveaux de chiffre d’affaires absolus diffèrent entre les deux séries, nous utilisons dans la présente étude un modèle fondé sur les niveaux de chiffre d’affaires trimestriels relatifs au cours d’une année.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 11-522-X202200100019
    Description : L’objet de cet article est de comparer les résultats de l’appariement des individus présents dans la source fiscale française avec ceux de l’Enquête Annuelle de Recensement (EAR) 2019, obtenus par différentes méthodes. Ceci afin de décider si le programme de Répertoires Statistiques d’Individus et de Logements (Résil) devra se doter d’un outil d’appariement probabiliste pour son moteur d’identification et d’appariement des sources administratives.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 11-522-X202200100020
    Description : La réconciliation des logements du recensement de 2021 avec le nouveau Registre statistique des immeubles (RSIm) a présenté des défis de couplage. Le Recensement de la population a recueilli des renseignements sur divers types de logements. Pour une grande partie de la population, les adresses postales, utilisées pour communiquer avec les gens et recueillies comme coordonnées, jouaient un rôle central. Parallèlement, l’environnement des registres a évolué. L’agence passe du Registre des adresses (RA) au Registre statistique des immeubles (RSIm), contenant les adresses postales et les adresses municipales, tout en couvrant les immeubles non résidentiels. La réconciliation a été effectuée à l’aide d’une combinaison de systèmes, notamment le nouveau Moteur d’appariement aux registres (MAR) pour les cas difficiles. Le MAR contient différents comparateurs de chaînes sophistiqués pertinents. Une méthode de couplage déterministe, tout en incorporant certaines connaissances sur les données comme l’entropie, fut employée. Grâce aux métadonnées, les experts en appariement ont aussi pu réduire le nombre de faux positifs et le nombre de faux négatifs.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 91F0015M2024002
    Description : Cet article examine l'émigration des immigrants à partir de la Base de données longitudinales sur les immigrants (BDIM). Une définition indirecte d'émigration est proposée en tirant profit des renseignements disponibles dans la BDIM. Il ressort de cette étude que l'émigration des immigrants est un phénomène important. Certaines caractéristiques des immigrants comme le fait d'avoir des enfants, la catégorie d'admission et le pays de naissance sont spécialement corrélées à l'émigration.
    Date de diffusion : 2024-02-02

  • Articles et rapports : 91F0015M2023001
    Description : Le présent article compare l'état matrimonial indiqué dans les données fiscales T1 de 2015 à celui inscrit dans le Recensement de 2016 au moyen d'un couplage d'enregistrements. 
    Date de diffusion : 2023-07-11

  • Articles et rapports : 12-001-X202200100007
    Description :

    Dans le cadre d’un couplage d’enregistrements, on associe des enregistrements résidant dans des fichiers distincts que l’on pense être reliés à la même entité. Dans la présente étude, nous abordons le couplage d’enregistrements comme un problème de classification et adaptons la méthode de classification par entropie maximale de l’apprentissage automatique pour coupler des enregistrements, tant dans l’environnement d’apprentissage automatique supervisé que non supervisé. L’ensemble de couplages est choisi en fonction de l’incertitude connexe. D’une part, notre cadre de travail permet de surmonter certaines failles théoriques persistantes de l’approche classique dont les pionniers ont été Fellegi et Sunter (1969); d’autre part, l’algorithme proposé est entièrement automatique, contrairement à l’approche classique qui nécessite généralement un examen manuel afin de résoudre des cas indécis.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 11-522-X202100100006
    Description :

    Dans le contexte de son paradigme « données administratives d’abord », Statistique Canada donne la priorité à l’utilisation de sources autres que les enquêtes pour produire des statistiques officielles. Ce paradigme repose de façon capitale sur des sources autres que les enquêtes pouvant fournir une couverture quasi parfaite de certaines populations cibles, y compris des fichiers administratifs ou des sources de mégadonnées. Toutefois, cette couverture doit être mesurée, en appliquant par exemple la méthode de capture-recapture, selon laquelle les données sont comparées à d’autres sources présentant une bonne couverture des mêmes populations, y compris un recensement. Cependant, il s’agit d’un exercice difficile en présence d’erreurs de couplage, qui surviennent inévitablement lorsque le couplage se fonde sur des quasi-identificateurs, comme cela est généralement le cas. Pour faire face à cet enjeu, une nouvelle méthodologie est décrite, selon laquelle la méthode de capture-recapture est améliorée grâce à un nouveau modèle d’erreur fondé sur le nombre de couplages contigus à un enregistrement donné. Elle est appliquée dans le cadre d’une expérience avec des données publiques de recensement.

    Mots clés : estimation de système dual; appariement de données; couplage d’enregistrements; qualité; intégration des données; mégadonnées.

    Date de diffusion : 2021-10-22

  • Enquêtes et programmes statistiques — Documentation : 12-539-X
    Description :

    Ce document réunit des lignes directrices et des listes de contrôles liées à de nombreuses questions dont on doit tenir compte dans la poursuite des objectifs de qualité que sous-tend l'exécution des activités statistiques. Le document s'attarde principalement à la façon d'assurer la qualité grâce à la conception ou à la restructuration efficace et adéquate d'un projet ou d'un programme statistique, des débuts jusqu'à l'évaluation, la diffusion et la documentation des données. Ces lignes directrices sont fondées sur les connaissances et l'expérience collective d'un grand nombre d'employés de Statistique Canada. On espère que les Lignes directrices concernant la qualité seront utiles au personnel chargé de la planification et de la conception des enquêtes et d'autres projets statistiques, ainsi qu'à ceux qui évaluent et analysent les résultats de ces projets.

    Date de diffusion : 2019-12-04
Données (2)

Données (2) ((2 résultats))

  • Tableau : 95F0303X
    Description :

    Ce produit fournit une sélection de données chronologiques et de données provenant de la base de données du couplage du Recensement de la population et du Recensement de l'agriculture de 2001 aux niveaux national et provincial. Les variables économiques et sociales sur les exploitants agricoles sont notamment l'âge, le sexe, l'état matrimonial, la langue maternelle, le plus haut niveau de scolarité atteint, le revenu agricole net ainsi que les chiffres de la population agricole et les profils de revenu pour les familles et les ménages agricoles de recensement.

    (Comme on n'a pas effectué de couplage de données pour les recensements de 1966 et de 1976, les comparaisons chronologiques ne sont pas possibles pour ces années.)

    Date de diffusion : 2003-12-02

  • Tableau : 16-200-X
    Description :

    Partie intégrante de la série intitulée Éconnexions : pour lier l'environnement et l'économie de Statistique Canada, ce produit consiste en une publication imprimée accompagnée d'un CD-ROM. Le produit offre des indicateurs sommaires ainsi que des statistiques détaillées qui quantifient le lien entre l'activité économiques et l'environnement. On y présente de l'information sur des questions allant des émissions de gaz à effet de serre et de l'utilisation de l'eau et de l'énergie au patrimoine naturel, en passant par les dépenses de protection de l'environnement et plus encore. La publication imprimée fournit une référence pratique aux indicateurs sommaires et comporte une analyse des tendances importantes; le CD-ROM offre un accès direct à des douzaines de tableaux statistiques qui sont à la base des indicateurs. Une version électronique de la publication est incluse sur le CD-ROM et chacun des indicateurs est hyperlié à un groupe de tableaux statistiques connexes. Ceci permet à l'utilisateur de sélectionner facilement des statistiques détaillées pour les consulter parallèlement à un indicateur donné. On peut procéder à une analyse simple et directe des statistiques avec le logiciel du CD-ROM. Pour les besoins d'analyse plus poussée, on peut télécharger facilement du CD-ROM des données de format standard pour tableurs.

    Date de diffusion : 2001-02-23
Analyses (73)

Analyses (73) (0 à 10 de 73 résultats)

  • Articles et rapports : 11-522-X202200100001
    Description : Le couplage d’enregistrements vise à mettre en évidence les paires d’enregistrements liées à la même unité et observées dans deux ensembles de données différents, disons A et B. Fellegi et Sunter (1969) proposent de mettre à l’essai chaque paire d’enregistrements, qu’elle soit générée à partir de l’ensemble de paires appariées ou non. La fonction de décision est le rapport entre m(y) et u(y), les probabilités d’observer une comparaison y d’un ensemble de k>3 variables d’identification clés dans une paire d’enregistrements, sous l’hypothèse que la paire constitue, respectivement, un appariement ou non. On estime habituellement ces paramètres au moyen de l’algorithme EM en utilisant comme données les comparaisons pour toutes les paires du produit cartésien ?=A×B. On émet l’hypothèse que ces observations (sur les comparaisons et sur l’état des paires comme appariement ou non) sont générées indépendamment des autres paires, hypothèse caractérisant la majeure partie de la littérature sur le couplage d’enregistrements et mise en œuvre dans les outils logiciels (p. ex., RELAIS, Cibella et coll. 2012). Au contraire, les comparaisons y et l’état d’appariement dans O sont dépendants de manière déterministe. Par conséquent, les estimations sur m(y) et u(y) fondées sur l’algorithme EM sont généralement mauvaises. Ce fait compromet l’efficacité de l’application de la méthode de Fellegi-Sunter, ainsi que le calcul automatique des mesures de la qualité et la possibilité d’appliquer des méthodes efficaces aux fins d’estimation du modèle sur des données couplées (p. ex. les fonctions de régression), comme dans Chambers et coll. (2015). Nous proposons d’examiner O au moyen d’un ensemble d’échantillons, chacun tiré de manière à préserver l’indépendance des comparaisons entre les paires d’enregistrements sélectionnées. Les simulations sont encourageantes.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 11-522-X202200100002
    Description : Les auteures ont utilisé le progiciel de couplage probabiliste Splink mis au point par le ministère de la Justice du Royaume-Uni pour relier les données du recensement de l’Angleterre et du pays de Galles à elles-mêmes afin de trouver des réponses en double au recensement. Un grand ensemble étalon-or des doublons confirmés du recensement était disponible, ce qui signifiait que la qualité des résultats de la mise en œuvre de Splink pouvait être assurée. Le présent article décrit la mise en œuvre et les fonctionnalités de Splink, donne des détails sur les configurations et les paramètres que nous avons utilisés pour ajuster Splink à notre projet en particulier, et donne les résultats que nous avons obtenus.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 11-522-X202200100012
    Description : Au Bureau central de la statistique des Pays-Bas (CBS), pour certains secteurs économiques, deux séries d’indices de chiffre d’affaires intra-annuels partiellement indépendantes sont disponibles : une série mensuelle fondée sur des données d’enquête et une série trimestrielle fondée sur les données de la taxe sur la valeur ajoutée pour les petites unités et sur des données d’enquête réutilisées pour les autres unités. Le CBS vise à étalonner la série mensuelle d’indices de chiffre d’affaires aux données trimestrielles du recensement à une fréquence trimestrielle. Pour l’heure, cela n’est pas réalisable, car les données fiscales ont une distribution trimestrielle différente, le chiffre d’affaires étant relativement grand au quatrième trimestre de l’année et plus faible au premier trimestre. Dans la présente étude, nous cherchons à décrire cette tendance trimestrielle présentant un écart au niveau micro. Nous avons élaboré auparavant un modèle de mélange utilisant des niveaux de chiffre d’affaires absolus pouvant expliquer en partie les distributions trimestrielles. Étant donné que les niveaux de chiffre d’affaires absolus diffèrent entre les deux séries, nous utilisons dans la présente étude un modèle fondé sur les niveaux de chiffre d’affaires trimestriels relatifs au cours d’une année.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 11-522-X202200100019
    Description : L’objet de cet article est de comparer les résultats de l’appariement des individus présents dans la source fiscale française avec ceux de l’Enquête Annuelle de Recensement (EAR) 2019, obtenus par différentes méthodes. Ceci afin de décider si le programme de Répertoires Statistiques d’Individus et de Logements (Résil) devra se doter d’un outil d’appariement probabiliste pour son moteur d’identification et d’appariement des sources administratives.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 11-522-X202200100020
    Description : La réconciliation des logements du recensement de 2021 avec le nouveau Registre statistique des immeubles (RSIm) a présenté des défis de couplage. Le Recensement de la population a recueilli des renseignements sur divers types de logements. Pour une grande partie de la population, les adresses postales, utilisées pour communiquer avec les gens et recueillies comme coordonnées, jouaient un rôle central. Parallèlement, l’environnement des registres a évolué. L’agence passe du Registre des adresses (RA) au Registre statistique des immeubles (RSIm), contenant les adresses postales et les adresses municipales, tout en couvrant les immeubles non résidentiels. La réconciliation a été effectuée à l’aide d’une combinaison de systèmes, notamment le nouveau Moteur d’appariement aux registres (MAR) pour les cas difficiles. Le MAR contient différents comparateurs de chaînes sophistiqués pertinents. Une méthode de couplage déterministe, tout en incorporant certaines connaissances sur les données comme l’entropie, fut employée. Grâce aux métadonnées, les experts en appariement ont aussi pu réduire le nombre de faux positifs et le nombre de faux négatifs.
    Date de diffusion : 2024-03-25

  • Articles et rapports : 91F0015M2024002
    Description : Cet article examine l'émigration des immigrants à partir de la Base de données longitudinales sur les immigrants (BDIM). Une définition indirecte d'émigration est proposée en tirant profit des renseignements disponibles dans la BDIM. Il ressort de cette étude que l'émigration des immigrants est un phénomène important. Certaines caractéristiques des immigrants comme le fait d'avoir des enfants, la catégorie d'admission et le pays de naissance sont spécialement corrélées à l'émigration.
    Date de diffusion : 2024-02-02

  • Articles et rapports : 91F0015M2023001
    Description : Le présent article compare l'état matrimonial indiqué dans les données fiscales T1 de 2015 à celui inscrit dans le Recensement de 2016 au moyen d'un couplage d'enregistrements. 
    Date de diffusion : 2023-07-11

  • Articles et rapports : 12-001-X202200100007
    Description :

    Dans le cadre d’un couplage d’enregistrements, on associe des enregistrements résidant dans des fichiers distincts que l’on pense être reliés à la même entité. Dans la présente étude, nous abordons le couplage d’enregistrements comme un problème de classification et adaptons la méthode de classification par entropie maximale de l’apprentissage automatique pour coupler des enregistrements, tant dans l’environnement d’apprentissage automatique supervisé que non supervisé. L’ensemble de couplages est choisi en fonction de l’incertitude connexe. D’une part, notre cadre de travail permet de surmonter certaines failles théoriques persistantes de l’approche classique dont les pionniers ont été Fellegi et Sunter (1969); d’autre part, l’algorithme proposé est entièrement automatique, contrairement à l’approche classique qui nécessite généralement un examen manuel afin de résoudre des cas indécis.

    Date de diffusion : 2022-06-21

  • Articles et rapports : 11-522-X202100100006
    Description :

    Dans le contexte de son paradigme « données administratives d’abord », Statistique Canada donne la priorité à l’utilisation de sources autres que les enquêtes pour produire des statistiques officielles. Ce paradigme repose de façon capitale sur des sources autres que les enquêtes pouvant fournir une couverture quasi parfaite de certaines populations cibles, y compris des fichiers administratifs ou des sources de mégadonnées. Toutefois, cette couverture doit être mesurée, en appliquant par exemple la méthode de capture-recapture, selon laquelle les données sont comparées à d’autres sources présentant une bonne couverture des mêmes populations, y compris un recensement. Cependant, il s’agit d’un exercice difficile en présence d’erreurs de couplage, qui surviennent inévitablement lorsque le couplage se fonde sur des quasi-identificateurs, comme cela est généralement le cas. Pour faire face à cet enjeu, une nouvelle méthodologie est décrite, selon laquelle la méthode de capture-recapture est améliorée grâce à un nouveau modèle d’erreur fondé sur le nombre de couplages contigus à un enregistrement donné. Elle est appliquée dans le cadre d’une expérience avec des données publiques de recensement.

    Mots clés : estimation de système dual; appariement de données; couplage d’enregistrements; qualité; intégration des données; mégadonnées.

    Date de diffusion : 2021-10-22

  • Articles et rapports : 11F0019M2018411
    Géographie : Région métropolitaine de recensement
    Description :

    Les immigrants ont tendance à habiter de façon disproportionnée dans les grandes villes canadiennes, ce qui peut mettre à l’épreuve la capacité d’absorption de ces dernières. La présente étude utilise la Base de données longitudinales sur l’immigration couplée au fichier sur la famille T1 afin d’examiner les décisions relatives à l’emplacement initial et à la migration subséquente des immigrants qui sont des demandeurs principaux de la catégorie économique (DPE) et qui ont été admis depuis l’adoption de la Loi sur l’immigration et la protection des réfugiés. Le principal objectif de l’étude est de relever les facteurs associés au fait d’habiter initialement et de demeurer dans l’une des trois plus grandes villes canadiennes servant de porte d’entrée aux immigrants : Montréal, Toronto et Vancouver (MTV).

    Date de diffusion : 2018-12-07
Références (19)

Références (19) (20 à 30 de 19 résultats)

Aucun contenu disponible actuellement

Date de modification :