Mesure du sous-dénombrement de deux sources de données dont la couverture est presque parfaite grâce à la capture et à la recapture en présence d’erreurs de couplage - ARCHIVÉ

Articles et rapports : 11-522-X202100100006

Description :

Dans le contexte de son paradigme « données administratives d’abord », Statistique Canada donne la priorité à l’utilisation de sources autres que les enquêtes pour produire des statistiques officielles. Ce paradigme repose de façon capitale sur des sources autres que les enquêtes pouvant fournir une couverture quasi parfaite de certaines populations cibles, y compris des fichiers administratifs ou des sources de mégadonnées. Toutefois, cette couverture doit être mesurée, en appliquant par exemple la méthode de capture-recapture, selon laquelle les données sont comparées à d’autres sources présentant une bonne couverture des mêmes populations, y compris un recensement. Cependant, il s’agit d’un exercice difficile en présence d’erreurs de couplage, qui surviennent inévitablement lorsque le couplage se fonde sur des quasi-identificateurs, comme cela est généralement le cas. Pour faire face à cet enjeu, une nouvelle méthodologie est décrite, selon laquelle la méthode de capture-recapture est améliorée grâce à un nouveau modèle d’erreur fondé sur le nombre de couplages contigus à un enregistrement donné. Elle est appliquée dans le cadre d’une expérience avec des données publiques de recensement.

Mots clés : estimation de système dual; appariement de données; couplage d’enregistrements; qualité; intégration des données; mégadonnées.

Numéro d'exemplaire : 2021001
Auteur(s) : Dasylva, Abel; Goussanou, Arthur; Nambeu, Christian Olivier
FormatDate de sortieInformations supplémentaires
PDF22 octobre 2021