Techniques d’enquête
Estimation des faux négatifs attribuables à la création des pochettes dans le couplage
d’enregistrements
par Abel Dasylva et Arthur GoussanouNote 1
- Date de diffusion : le 6 janvier 2022
Résumé
Dans le couplage d’ensembles de données massifs, on a recours aux pochettes pour sélectionner un sous-ensemble gérable de paires d’enregistrements quitte à perdre quelques paires appariées. Cette perte tient une grande place dans l’erreur de couplage globale, parce que les décisions relatives aux pochettes se prennent tôt dans le processus sans qu’on puisse les réviser par la suite. Mesurer le rôle que joue cette perte demeure un grand défi si on considère la nécessité de modéliser toutes les paires dans le produit cartésien des sources, et non seulement celles qui répondent aux critères des pochettes. Malheureusement, les modèles antérieurs d’erreur ne nous aident guère parce qu’ils ne respectent normalement pas cette exigence. Il sera question ici d’un nouveau modèle de mélange fini, qui ne demande ni vérifications manuelles, ni données d’entraînement, ni hypothèse d’indépendance conditionnelle des variables de couplage. Il s’applique dans le cadre d’une procédure de pochettes typique dans le couplage d’un fichier avec un registre ou un recensement exhaustif lorsque ces deux sources sont exemptes d’enregistrements en double.
Mots-clés : Indexation; ensembles massifs de données; résolution d’entités; intégration des données; apprentissage automatique; classification.
Table des matières
- Section 1. Introduction
- Section 2. Définitions, notation et hypothèses
- Section 3. Voisins et erreurs
- Section 4. Modèle de mélange fini
- Section 5. Procédure d’estimation
- Section 6. Étude empirique
- Section 7. Conclusions et travaux futurs
- Avertissement
- Remerciements
- Annexe A
- Bibliographie
Citation de l'article
Dasylva, A., et Goussanou, A. (2021). Estimation des faux négatifs attribuables à la création des pochettes dans le couplage d’enregistrements. Techniques d’enquête, Statistique Canada, n° 12‑001‑X au catalogue, vol. 47, n° 2. Article accessible à l'adresse http://www.statcan.gc.ca/pub/12-001-x/2021002/article/00002-fra.htm.
Note
- Date de modification :