Pipelines en science des données @ ISTAT : défis et solutions - ARCHIVÉ
Articles et rapports : 11-522-X202100100029
Parallèlement à l’orientation prise par le Système statistique européen, l’ISTAT investit dans des méthodes innovantes pour tirer profit de sources de mégadonnées et les utiliser dans la production de produits de statistiques officielles nouveaux et enrichis. Les sources de mégadonnées ne peuvent pas, en général, être suivies directement avec des techniques statistiques traditionnelles; il suffit de penser à des types de données particulières comme des images et du texte qui sont des exemples de la dimension de variété des mégadonnées. Cela motive et justifie l’intérêt croissant des instituts statistiques nationaux dans des techniques de science des données. L’ISTAT utilise actuellement de telles techniques, y compris des techniques d’apprentissage automatique, dans le cadre de projets d’innovation et la publication de statistiques expérimentales. Cette étude fournit un aperçu des principaux projets de l’ISTAT en cours et se concentre sur deux pipelines de production particuliers fondés sur des mégadonnées, liés respectivement au traitement de sources textuelles et de sources d’images. L’article souligne les principaux défis associés à ces deux pipelines et les solutions mises en place pour les résoudre.
Mots-clés : apprentissage automatique; traitement de texte; traitement d’image; mégadonnées
Produit principal : La série des symposiums internationaux de Statistique Canada : recueil
Format | Date de sortie | Informations supplémentaires |
---|---|---|
5 novembre 2021 |
Information connexe
- Date de modification :