Proposition pour le problème de l’estimation des probabilités d’appariement dans le couplage d’enregistrements

Articles et rapports : 11-522-X202200100001
Description : Le couplage d’enregistrements vise à mettre en évidence les paires d’enregistrements liées à la même unité et observées dans deux ensembles de données différents, disons A et B. Fellegi et Sunter (1969) proposent de mettre à l’essai chaque paire d’enregistrements, qu’elle soit générée à partir de l’ensemble de paires appariées ou non. La fonction de décision est le rapport entre m(y) et u(y), les probabilités d’observer une comparaison y d’un ensemble de k>3 variables d’identification clés dans une paire d’enregistrements, sous l’hypothèse que la paire constitue, respectivement, un appariement ou non. On estime habituellement ces paramètres au moyen de l’algorithme EM en utilisant comme données les comparaisons pour toutes les paires du produit cartésien ?=A×B. On émet l’hypothèse que ces observations (sur les comparaisons et sur l’état des paires comme appariement ou non) sont générées indépendamment des autres paires, hypothèse caractérisant la majeure partie de la littérature sur le couplage d’enregistrements et mise en œuvre dans les outils logiciels (p. ex., RELAIS, Cibella et coll. 2012). Au contraire, les comparaisons y et l’état d’appariement dans O sont dépendants de manière déterministe. Par conséquent, les estimations sur m(y) et u(y) fondées sur l’algorithme EM sont généralement mauvaises. Ce fait compromet l’efficacité de l’application de la méthode de Fellegi-Sunter, ainsi que le calcul automatique des mesures de la qualité et la possibilité d’appliquer des méthodes efficaces aux fins d’estimation du modèle sur des données couplées (p. ex. les fonctions de régression), comme dans Chambers et coll. (2015). Nous proposons d’examiner O au moyen d’un ensemble d’échantillons, chacun tiré de manière à préserver l’indépendance des comparaisons entre les paires d’enregistrements sélectionnées. Les simulations sont encourageantes.
Numéro d'exemplaire : 2022001
Auteur(s) : Scanu, Mauro; Tuoto, Tiziana; Fortini, Marco; Piombo, Sara
Produit principal : La série des symposiums internationaux de Statistique Canada : recueil
Format Date de sortie Informations supplémentaires
PDF mars 25 2024

Information connexe

Sujets et mots-clés

Sujets

Mots-clés