Améliorer la saisie automatique des reçus d'achat fournis dans le cadre de l'Enquête sur les dépenses des ménages à l'aide de techniques d'apprentissage automatique

Articles et rapports : 11-522-X202500100004
Description : L'Enquête sur les dépenses des ménages (EDM) de Statistique Canada recueille des journaux papier et des reçus d'achats comme source de données sur les dépenses des ménages. Un algorithme de saisie automatique a été créé pour l'EDM de 2023 afin de réduire le travail manuel des commis à la statistique qui consiste à extraire les renseignements importants de reçus numérisés de chaînes de magasins populaires. L'algorithme utilisait l'outil de reconnaissance optique de caractères (ROC) Tesseract pour extraire des caractères de texte à partir d'images de reçus et identifiait des entités de magasin et de produit en utilisant des expressions régulières, également appelées des « regex ». Cette étude visait à améliorer l'algorithme actuel de saisie automatique en mettant à l'essai des méthodes de ROC et d'apprentissage automatique plus avancées. Par conséquent, PaddleOCR, une trousse d'outils de ROC à accès libre, a été choisi comme nouveau moteur de ROC par défaut en raison de son rendement général en matière de reconnaissance exacte de textes, notamment au niveau des chiffres, sur des reçus de qualités diverses. De plus, les classificateurs d'entités basés sur des machines à vecteurs de support ont été entraînés sur les enregistrements historiques de l'EDM et les modèles de regex existants. En utilisant des classificateurs pour classer les différents éléments présents sur les reçus au lieu de s'appuyer uniquement sur des modèles de regex, le processus de reconnaissance des produits et des magasins est meilleur. On prévoit que ce nouvel algorithme sera utilisé dans l'EDM de 2025 afin d'améliorer la qualité de la saisie automatique et de réduire le fardeau manuel associé à la saisie des variables de reçus.
Numéro d'exemplaire : 2025001
Auteur(s) : Ogunnoiki, Oladayo; Yoon, Joanne
Produit principal : La série des symposiums internationaux de Statistique Canada : recueil
Format Date de sortie Informations supplémentaires
PDF septembre 8 2025