Techniques d’enquête
Classification par entropie maximale aux fins de couplage d’enregistrements
par Danhyang Lee, Li-Chun Zhang et Jae Kwang KimNote 1
- Date de diffusion : le 21 juin 2022
Résumé
Dans le cadre d’un couplage d’enregistrements, on associe des enregistrements résidant dans des fichiers distincts que l’on pense être reliés à la même entité. Dans la présente étude, nous abordons le couplage d’enregistrements comme un problème de classification et adaptons la méthode de classification par entropie maximale de l’apprentissage automatique pour coupler des enregistrements, tant dans l’environnement d’apprentissage automatique supervisé que non supervisé. L’ensemble de couplages est choisi en fonction de l’incertitude connexe. D’une part, notre cadre de travail permet de surmonter certaines failles théoriques persistantes de l’approche classique dont les pionniers ont été Fellegi et Sunter (1969); d’autre part, l’algorithme proposé est entièrement automatique, contrairement à l’approche classique qui nécessite généralement un examen manuel afin de résoudre des cas indécis.
Mots-clés : Couplage probabiliste; ratio de densité; faux couplage; correspondance manquante; échantillonnage.
Table des matières
- Section 1. Introduction
- Section 2. Problèmes de l’approche classique
- Section 3. Classification par entropie maximale : environnement supervisé
- Section 4. Classification par entropie maximale aux fins de couplage d’enregistrements non supervisé
- Section 5. Discussion
- Section 6. Étude par simulations
- Section 7. Observations finales
- Remerciements
- Documentation supplémentaire
- Bibliographie
Citation de l'article
Lee, D., Zhang, L.-C. et Kim, J.K. (2022). Classification par entropie maximale aux fins de couplage d’enregistrements. Techniques d’enquête, Statistique Canada, n° 12‑001‑X au catalogue, vol. 48, n° 1. Article accessible à l'adresse http://www.statcan.gc.ca/pub/12-001-x/2022001/article/00007-fra.htm.
Note
- Date de modification :