Techniques d’enquête
Estimation des faux négatifs attribuables à la création des pochettes dans le couplage d’enregistrements

par Abel Dasylva et Arthur GoussanouNote 1

  • Date de diffusion : le 6 janvier 2022

Résumé

Dans le couplage d’ensembles de données massifs, on a recours aux pochettes pour sélectionner un sous-ensemble gérable de paires d’enregistrements quitte à perdre quelques paires appariées. Cette perte tient une grande place dans l’erreur de couplage globale, parce que les décisions relatives aux pochettes se prennent tôt dans le processus sans qu’on puisse les réviser par la suite. Mesurer le rôle que joue cette perte demeure un grand défi si on considère la nécessité de modéliser toutes les paires dans le produit cartésien des sources, et non seulement celles qui répondent aux critères des pochettes. Malheureusement, les modèles antérieurs d’erreur ne nous aident guère parce qu’ils ne respectent normalement pas cette exigence. Il sera question ici d’un nouveau modèle de mélange fini, qui ne demande ni vérifications manuelles, ni données d’entraînement, ni hypothèse d’indépendance conditionnelle des variables de couplage. Il s’applique dans le cadre d’une procédure de pochettes typique dans le couplage d’un fichier avec un registre ou un recensement exhaustif lorsque ces deux sources sont exemptes d’enregistrements en double.

Mots-clés : Indexation; ensembles massifs de données; résolution d’entités; intégration des données; apprentissage automatique; classification.

Table des matières

Citation de l'article

Dasylva, A., et Goussanou, A. (2021). Estimation des faux négatifs attribuables à la création des pochettes dans le couplage d’enregistrements. Techniques d’enquête, Statistique Canada, n° 12‑001‑X au catalogue, vol. 47, n° 2. Article accessible à l'adresse http://www.statcan.gc.ca/pub/12-001-x/2021002/article/00002-fra.htm.

Note


Date de modification :