Filer sur la voie du fastText : exploiter l'apprentissage automatique restreint par programmation linéaire pour réviser les classifications

Articles et rapports : 11-522-X202500100010
Description : L'Enquête sur la population active (EPA) de Statistique Canada joue un rôle fondamental dans l'estimation des conditions du marché du travail au Canada. Périodiquement, l'EPA révise ses données en fonction des versions les plus récentes des classifications des industries et des professions. Ces versions peuvent présenter des écarts importants, dont des changements structurels, des créations, des suppressions, des fractionnements et la combinaison d'unités de classification (catégories) au niveau général ainsi qu'au niveau du groupe de base. Par le passé, afin de rapprocher les catégories fractionnées, en vertu desquelles une catégorie était fractionnée en plusieurs catégories, on recodait manuellement un échantillon d'enregistrements fractionnés de l'EPA selon la nouvelle version de la classification. Selon la proportion de fractionnement observée dans l'échantillon recodé, une méthode d'allocation aléatoire était appliquée à toutes les données pour tenir compte de l'évolution du marché du travail canadien au fil du temps. Le présent article propose d'utiliser l'apprentissage automatique (fastText), contraint à des proportions fractionnées par programmation linéaire, pour réviser les classifications des industries et des professions dans l'EPA. Le cadre hybride bénéficie d'un mécanisme de révision basé sur le texte, tout en respectant les estimations traditionnelles des proportions, et en assurant une répercussion minimale sur la comparabilité des indicateurs du marché du travail publiés.
Numéro d'exemplaire : 2025001
Auteur(s) : Evans, Justin; Wile, Laura
Produit principal : La série des symposiums internationaux de Statistique Canada : recueil
Format Date de sortie Informations supplémentaires
PDF septembre 8 2025