Couplage efficace d'enregistrements pour les grands ensembles de données, selon les noms d'entreprise

Articles et rapports : 11-522-X202500100019
Description : Le couplage d'enregistrements exact et efficace s'avère crucial pour veiller à ce que le Registre statistique des entreprises (RSE) de Statistique Canada soit exhaustif et actuel. Le couplage de listes externes d'entreprises au RSE selon le nom présente des défis sur le plan méthodologique et des calculs, surtout au fur et à mesure que les volumes de données augmentent. Le présent article décrit une méthodologie évolutive qui se fonde sur des techniques d'établissement de blocs pour limiter l'espace de recherche informatique, et intègre de multiples mesures de similarité, des distances d'édition et du chevauchement de n-grammes aux méthodes fondées sur la vectorisation utilisant Sentence-BERT (SBERT), afin de déceler les paires appariées probables. En jumelant des comparaisons simples au niveau des caractères à des méthodes de vectorisation sémantique plus avancées, l'approche peut s'adapter à diverses conventions nominales et différents degrés de complexité. Même si cela ne garantit pas une précision supérieure dans toutes les situations, cette méthode offre un équilibre pragmatique entre la faisabilité des calculs et la qualité du couplage.
Numéro d'exemplaire : 2025001
Auteur(s) : Godbout, Serge; Ather, Hanan; MacNeil, Dave
Produit principal : La série des symposiums internationaux de Statistique Canada : recueil
Format Date de sortie Informations supplémentaires
PDF septembre 8 2025

Information connexe

Sujets et mots-clés

Sujets

Mots-clés