Exploration de la génération de données synthétiques d'apprentissage profond pour partager des données sensibles liées à des services publics

Articles et rapports : 11-522-X202500100017
Description : Les services publics ont des renseignements essentiels sur la consommation d'énergie et les caractéristiques des bâtiments, des renseignements que les organismes gouvernementaux peuvent utiliser pour améliorer leurs analyses correspondantes. Ces données, de nature confidentielle, sont toutefois associées aux enregistrements de clients. Les données sur les bâtiments et la consommation d'énergie peuvent être trop délicates pour être partagées. Souvent, les versions agrégées de ces données sont échangées en vertu de contrats très restrictifs, ce qui limite le nombre de statistiques qui peuvent en être extraites. Avec l'avancement des techniques génératives d'apprentissage automatique, Statistique Canada et Ressources naturelles Canada ont évalué s'il était possible d'utiliser ces modèles pour produire des versions synthétiques des données sur les services publics qui peuvent être échangées intégralement avec les organismes qui en font la demande. Un service public peut créer ces ensembles de données synthétiques dans le cadre d'un programme exécuté localement. Les extrants peuvent être approuvés avant d'être envoyés. Ces travaux ont permis d'établir que les services publics peuvent utiliser certains modèles génératifs pour produire de nouvelles versions d'un ensemble de données, ainsi que de recenser les problèmes qui doivent être résolus avant de mettre en œuvre le tout en pratique. Des modèles tabulaires et de séries temporelles ont été mis à l'essai pour différents scénarios d'échange de données. Le modèle TimeGAN a permis de saisir les pics et les creux de consommation d'énergie au cours d'une journée donnée en respectant des exigences de calcul raisonnables. Bien que ce processus prenne plusieurs jours avant que les quantités d'énergie annuelles totalisent des milliers d'enregistrements de clients, de nouvelles initiatives d'échange de données peuvent être mises en œuvre entre les services publics et les organismes nationaux de statistique, tout en gérant les risques liés à la protection des renseignements personnels. Au fur et à mesure que les travaux avanceront dans le cadre des futures phases qui se dérouleront auprès de vrais partenaires des services publics, la confiance envers ces approches peut se renforcer. On pourra commencer à mettre à l'essai celles-ci en utilisant des données réelles fournies par de réels détenteurs de données.
Numéro d'exemplaire : 2025001
Auteur(s) : Santos, Benjamin; Chemli, Rafik; Templeton, Julian
Produit principal : La série des symposiums internationaux de Statistique Canada : recueil
Format Date de sortie Informations supplémentaires
PDF septembre 8 2025