Couplage efficace d'enregistrements pour les grands ensembles de données, selon les noms d'entreprise
Articles et rapports : 11-522-X202500100019Description : Le couplage d'enregistrements exact et efficace s'avère crucial pour veiller à ce que le Registre statistique des entreprises (RSE) de Statistique Canada soit exhaustif et actuel. Le couplage de listes externes d'entreprises au RSE selon le nom présente des défis sur le plan méthodologique et des calculs, surtout au fur et à mesure que les volumes de données augmentent. Le présent article décrit une méthodologie évolutive qui se fonde sur des techniques d'établissement de blocs pour limiter l'espace de recherche informatique, et intègre de multiples mesures de similarité, des distances d'édition et du chevauchement de n-grammes aux méthodes fondées sur la vectorisation utilisant Sentence-BERT (SBERT), afin de déceler les paires appariées probables. En jumelant des comparaisons simples au niveau des caractères à des méthodes de vectorisation sémantique plus avancées, l'approche peut s'adapter à diverses conventions nominales et différents degrés de complexité. Même si cela ne garantit pas une précision supérieure dans toutes les situations, cette méthode offre un équilibre pragmatique entre la faisabilité des calculs et la qualité du couplage.
Numéro d'exemplaire : 2025001Auteur(s) : Godbout, Serge; Ather, Hanan; MacNeil, DaveProduit principal :La série des symposiums internationaux de Statistique Canada : recueil