Base de données longitudinales sur l’immigration (BDIM) Rapport technique, 2023
4 Couplage d’enregistrementsNote

Tel que décrit dans ce document, la BDIM est le résultat de plusieurs couplages d’enregistrements. Elle a été créée pour fournir des renseignements statistiques anonymes. Cette section offre un aperçu des méthodes de couplage d’enregistrements utilisées pour créer la BDIM. Pour plus de détails concernant le traitement de données relatif au couplage d’enregistrement, veuillez consulter la section 5.

Le couplage d’enregistrements est le processus de mise en correspondance d’enregistrements entre ou au sein de bases de données. Cette approche est couramment utilisée pour combler des lacunes statistiques et créer un ensemble de données présentant de vastes applications (Rotermann and al. 2015).

Pour produire la BDIM, l’Environnement de couplage de données sociales (ECDS) est utilisé. L’ECDS est un environnement de couplage très sécurisé qui facilite la création de fichiers de données couplés sur la population pour l’analyse sociale.

Au centre de l'ECDS se trouve le Dépôt d'enregistrements dérivés (DED ou Dépôt), une base de données relationnelle dynamique nationale renfermant seulement des identificateurs personnels de base. Le DED est créé en couplant différents fichiers index sources de Statistique Canada dans le but de produire une liste de particuliers. Ces fichiers, qui renferment des identificateurs personnels sans variables d'analyse, sont intégrés à l'environnement, traités et couplés seulement une seule fois au DED. Les mises à jour de ces fichiers de données sont couplées au DED de façon régulière.

En 2023, le taux de couplage au dépôt pour les données d’immigration était de 97,5 % (SDLE, 2024) et la méthode probabiliste a été utilisée pour coupler les données sur l'immigration d’IRCC aux données fiscales de l'ARC. Pour effectuer le couplage d'enregistrements, Le système généralisé de couplage d’enregistrement G-Coup a été utilisé.

Le système généralisé de couplage d'enregistrements qu'utilise Statistique Canada, G-Coup, se fonde sur la théorie mathématique du couplage d'enregistrements élaborée par Ivan P. Fellegi et Alan B. Sunter. La méthodologie de couplage d'enregistrements probabiliste compare des identificateurs non uniques (p. ex. nom et date de naissance) et estime la probabilité que les enregistrements correspondants portent sur la même entité (p. ex. personne). Le couplage d'enregistrements probabiliste s'avère particulièrement utile lorsque les identificateurs sont susceptibles de changer (p. ex. nom de famille des femmes qui se marient), peuvent comporter des erreurs et sont souvent absents.

La comparaison des enregistrements est faite champ par champ au moyen de règles de comparaison dont les niveaux de concordance sont correspondance exacte, proximité des chaînes, information manquante ou non-concordance entre les champs. Un niveau de concordance est produit pour chaque règle en fonction de la similitude des valeurs d'une paire d'enregistrements. Un modèle de comparaison des résultats est attribué à chaque paire d'enregistrements. Ce modèle est évalué afin de classer les paires comme étant liées, possiblement liées ou non liées.

La théorie du couplage d’enregistrements probabiliste se fonde sur la prémisse selon laquelle les résultats de certains modèles de comparaison des résultats sont caractéristiques de paires véritablement couplées, tandis que d'autres sont caractéristiques de paires véritablement non couplées. Ainsi, un poids est attribué à chaque niveau de concordance d’une règle en fonction du ratio de la probabilité estimée que le niveau de concordance soit obtenu pour les correspondances véritables à la probabilité estimée que le niveau soit obtenu pour les non-correspondances.

Comme on ne connaît pas d’avance la composition de l’ensemble couplé, on ne connaît pas les probabilités des modèles de résultats pour les enregistrements véritablement couplés. Les composantes de poids couplées sont estimées à partir de connaissances antérieures et de versions antérieures du processus de couplage. Elles sont précisées lors d’itérations successives du processus de couplage.

Les composantes de poids non couplées sont calculées en fonction de la fréquence à laquelle les niveaux d'une règle ont été observés parmi des paires d'enregistrements qui ne vont pas ensemble, ce qui équivaut approximativement à la fréquence à laquelle les niveaux d'une règle seraient observés parmi des enregistrements associés de manière aléatoire. Après une itération répétée du processus de couplage, les composantes de poids couplées se stabilisent, et il est possible d'utiliser les poids finaux.

La stratégie du couplage d'enregistrements probabiliste comporte les six étapes suivantes :

  1. Produire des paires potentielles au moyen d’un critère initial.
  2. Créer des règles de comparaison et les appliquer aux paires potentielles pour obtenir des ratios de probabilité.
  3. Appliquer des poids de fréquence.
  4. Affecter des états de couplage aux paires au moyen de ratios de probabilité et de seuils.
  5. Former des groupes.
  6. Résoudre les conflits au moyen de la mise en correspondance.

Il faut répéter les étapes 2 à 4 de manière itérative. Chaque étape est décrite de manière plus détaillée ci-dessous.

Les utilisateurs d'un ensemble de données créé à partir d'un couplage d'enregistrements doivent être conscients que des erreurs de couplage sont possibles. Un couplage d'enregistrements peut produire quatre résultats : de réelles correspondances correctement classées comme des correspondances, de réelles correspondances classées à tort comme des non-correspondances, de réelles non-correspondances classées à tort comme des correspondances ou de réelles non-correspondances correctement classées comme des non-correspondances (Winkler, 2009). Comme le montre l'exemple du tableau 2, dans lequel les enregistrements du fichier 1 sont couplés aux enregistrements du fichier 2, le résultat du couplage d'enregistrements entre deux variables sera soit une correspondance soit une non-correspondance. Un bon couplage d'enregistrements maximisera la proportion des réelles correspondances correctement classées comme des correspondances et la proportion des réelles non-correspondances correctement classées comme des non-correspondances, et minimisera les autres résultats éventuels du couplage d'enregistrements.

Tableau 2
Exemple de résultats de couplage d’enregistrements Sommaire du tableau
Le tableau montre les résultats de Exemple de résultats de couplage d’enregistrements. Les données sont présentées selon Enregistrement (titres de rangée) et A, Type de résultat, Fichier 2, B et D, calculées selon unités de mesure (figurant comme en-tête de colonne).
Enregistrement Fichier 2 Type de résultat
A B D
Source : Statistique Canada, exemple de résultats de couplage d’enregistrements.
Fichier 1 Correspondance Non‑correspondance Non‑correspondance Réelle correspondance
Non‑correspondance Correspondance Non‑correspondance Fausse correspondance
Non‑correspondance Non‑correspondance Non‑correspondance Fausse non‑correspondance
Non‑correspondance Non‑correspondance Non‑correspondance Réelle non‑correspondance

Les résultats d’un couplage d’enregistrements probabiliste dépendent de la qualité des variables de couplage. Des noms mal orthographiés, par exemple, ou des coquilles dans la date de naissance peuvent empêcher des correspondances ou créer des erreurs de correspondance. Une non-correspondance ne signifie pas nécessairement que la personne n’a pas produit de déclaration de revenus. Les taux de couplage d’enregistrements pour la BDIM la plus récente sont fournis à la section 7.2.1.


Date de modification :