Techniques d’enquête
Classification par entropie maximale aux fins de couplage d’enregistrements

par Danhyang Lee, Li-Chun Zhang et Jae Kwang KimNote 1

  • Date de diffusion : le 21 juin 2022

Résumé

Dans le cadre d’un couplage d’enregistrements, on associe des enregistrements résidant dans des fichiers distincts que l’on pense être reliés à la même entité. Dans la présente étude, nous abordons le couplage d’enregistrements comme un problème de classification et adaptons la méthode de classification par entropie maximale de l’apprentissage automatique pour coupler des enregistrements, tant dans l’environnement d’apprentissage automatique supervisé que non supervisé. L’ensemble de couplages est choisi en fonction de l’incertitude connexe. D’une part, notre cadre de travail permet de surmonter certaines failles théoriques persistantes de l’approche classique dont les pionniers ont été Fellegi et Sunter (1969); d’autre part, l’algorithme proposé est entièrement automatique, contrairement à l’approche classique qui nécessite généralement un examen manuel afin de résoudre des cas indécis.

Mots-clés : Couplage probabiliste; ratio de densité; faux couplage; correspondance manquante; échantillonnage.

Table des matières

Citation de l'article

Lee, D., Zhang, L.-C. et Kim, J.K. (2022). Classification par entropie maximale aux fins de couplage d’enregistrements. Techniques d’enquête, Statistique Canada, n° 12‑001‑X au catalogue, vol. 48, n° 1. Article accessible à l'adresse http://www.statcan.gc.ca/pub/12-001-x/2022001/article/00007-fra.htm.

Note


Date de modification :