Pipelines en science des données @ ISTAT : défis et solutions

Articles et rapports : 11-522-X202100100029

Description :

Parallèlement à l’orientation prise par le Système statistique européen, l’ISTAT investit dans des méthodes innovantes pour tirer profit de sources de mégadonnées et les utiliser dans la production de produits de statistiques officielles nouveaux et enrichis. Les sources de mégadonnées ne peuvent pas, en général, être suivies directement avec des techniques statistiques traditionnelles; il suffit de penser à des types de données particulières comme des images et du texte qui sont des exemples de la dimension de variété des mégadonnées. Cela motive et justifie l’intérêt croissant des instituts statistiques nationaux dans des techniques de science des données. L’ISTAT utilise actuellement de telles techniques, y compris des techniques d’apprentissage automatique, dans le cadre de projets d’innovation et la publication de statistiques expérimentales. Cette étude fournit un aperçu des principaux projets de l’ISTAT en cours et se concentre sur deux pipelines de production particuliers fondés sur des mégadonnées, liés respectivement au traitement de sources textuelles et de sources d’images. L’article souligne les principaux défis associés à ces deux pipelines et les solutions mises en place pour les résoudre.

Mots-clés : apprentissage automatique; traitement de texte; traitement d’image; mégadonnées

Numéro d'exemplaire : 2021001

Auteur(s) : Scannapieco, Monica; De Cubellis, Massimo; De Fausti, Fabrizio

Produit principal : La série des symposiums internationaux de Statistique Canada : recueil