3.4 Traitement
3.4.5 Couplage d'enregistrements

Début du texte

Le couplage d'enregistrements est le processus par lequel des enregistrements ou des unités provenant de différentes sources de données sont réunis dans un seul fichier à l'aide d'identifiants non uniques, tels que des noms, des dates de naissance, des adresses et d'autres caractéristiques. Il est également connu sous le nom d’appariement de données, de couplage de données, de résolution d'entités et de nombreux autres termes selon les domaines dans lesquels il a été utilisé. L'idée initiale du couplage d'enregistrements remonte aux années 1950, puis cette technique a été appliquée par des personnes issues d'un large éventail de domaines, tels que l'entreposage de données et l’intelligence de gestion, la recherche historique, ainsi que la pratique et la recherche médicales.

Le couplage a une longue histoire d'utilisations dans les enquêtes statistiques et le développement de données administratives. À Statistique Canada, le couplage d'enregistrements est utilisé pour créer une base de sondage, éliminer les doublons des fichiers, fournir des renseignements supplémentaires pour faciliter le traitement des données ou combiner des fichiers de façon à étudier les relations entre deux ou plusieurs éléments de données provenant de fichiers distincts. Par exemple :

  • Un registre des entreprises comprenant des noms, des adresses et d'autres informations d'identification, telles que des informations financières complètes, peut être construit à partir de bases de données sur les impôts et l'emploi.
  • Une enquête sur les établissements de vente au détail ou les établissements agricoles pourrait combiner les résultats d'une base aréolaire et d'une base liste. Pour produire un estimateur pour la combinaison des sources, les unités de la base aréolaire devraient être identifiées dans la liste.
  • La couverture du Recensement de la population peut être mesurée en couplant les enregistrements du Recensement à d’autres sources de données administratives et en estimant le pourcentage de personnes trouvées dans l’une des sources, mais pas dans l’autre.

Types de couplage

Il existe deux types de couplage d'enregistrements : l’appariement exact et l’appariement statistique. L’appariement statistique se divise en deux sous-types : le couplage d’enregistrements déterministe et le couplage d’enregistrements probabiliste, tel qu’illustré à la figure 3.4.5.1 ci-dessous.

Figure 3.4.5.1 Types de couplage d’enregistrements

Description de la figure 3.4.5.1

La figure est un diagramme hiérarchique qui montre le lien entre les types de couplage.

Appariement statistique

L'objectif de l'appariement statistique est de créer un fichier reflétant la distribution de la population sous-jacente. Les enregistrements qui sont combinés ne correspondent pas nécessairement à la même entité, telle qu'une personne ou une entreprise. Les fichiers qui sont appariés peuvent avoir des unités différentes, mais se référer à la même population. On suppose que la relation des variables dans la population sera similaire à la relation dans les fichiers. Cette méthode est principalement utilisée dans les études de marché et rarement par les agences statistiques officielles.

Appariement exact

L'objectif de l'appariement exact est de relier les informations relatives à un enregistrement particulier dans un fichier aux informations d'un fichier secondaire afin de créer un seul fichier avec des informations correctes pour chaque enregistrement. Le couplage est effectué au niveau de l'enregistrement, par exemple un lien entre les enregistrements de mortalité et le recensement de la population.

Couplage d'enregistrements déterministe

Il s'agit de la forme la plus simple de couplage d'enregistrements, qui produit des liens basés sur des identifiants ou des variables communes parmi les sources de données disponibles. Il arrive souvent qu'il n'existe pas de variable unique exempte d'erreurs, présente sur la majorité des données et ayant un pouvoir de discrimination suffisant. Seule une combinaison de variables sera capable de discriminer entre deux enregistrements. C'est une technique souvent utilisée par les agences de statistiques officielles. Statistique Canada utilise cette méthode pour construire ses registres d'entreprises, d'adresses et de population, ce qui implique de multiples opérations d'enquête par la suite.   

Couplage d'enregistrements probabiliste

Il s'agit d'un autre type d’appariement exact. Comme dans l'autre cas, il n'y a pas d'identifiant unique disponible pour l’appariement. Contrairement à l'appariement déterministe, l'appariement probabiliste peut compenser si les informations sont incomplètes ou sujettes à erreur. Les enregistrements qui ne concordent pas totalement pour chaque variable peuvent être reliés entre eux pour constituer un ensemble de paires potentielles. Un score est alors calculé pour chaque paire potentielle. Ensuite, un statut de couplage est attribué à chaque paire potentielle sur la base du score.  

Remarque

De nombreux facteurs sont à prendre en compte pour déterminer le type de couplage d'enregistrements à utiliser, comme l'objectif du couplage, le type de données, le coût, le temps, la confidentialité, le niveau de précision acceptable et le type d'erreur. En général, le couplage déterministe est moins exigeant sur le plan informatique, mais il implique davantage d'interventions manuelles. Le couplage probabiliste est plus long et plus intensif sur le plan informatique, et nécessite un logiciel spécialisé. Cependant, il produit des résultats généralement plus fiables que le couplage déterministe.


Date de modification :