Les médias sociaux comme source de données pour les statistiques officielles; l’Indice de confiance des consommateurs des Pays-Bas
Section 1. Introduction

Habituellement, les instituts nationaux de statistique font appel à l’échantillonnage probabiliste conjugué à l’inférence sous le plan de sondage ou assistée par modèle pour produire les statistiques officielles. Le concept d’échantillonnage probabiliste aléatoire a été élaboré principalement en se fondant sur les travaux de Bowley (1926), Neyman (1934), ainsi que Hansen et Hurwitz (1943). Consulter, par exemple, Cochran (1977) ou Särndal, Swensson et Wretman (1992) pour une introduction détaillée à la théorie de l’échantillonnage. Il s’agit d’une approche généralement reconnue, puisqu’elle repose sur une théorie mathématique solide qui montre comment, moyennant la combinaison appropriée d’un plan d’échantillonnage aléatoire et d’un estimateur, des inférences statistiques valides peuvent être faites au sujet de grandes populations finies en se basant sur des échantillons relativement petits. En outre, le degré d’incertitude découlant de l’utilisation de petits échantillons peut être quantifié au moyen de la variance des estimateurs.

Une pression constante s’exerce sur les instituts nationaux de statistique afin qu’ils réduisent les coûts administratifs et le fardeau de réponse. De surcroît, la baisse des taux de réponse suscite la recherche de sources d’information statistique de rechange. Cela pourrait se faire en utilisant des données administratives, comme celles des registres de l’impôt, ou d’autres grands ensembles de données – ce qu’il est convenu d’appeler les mégadonnées – qui sont générés en tant que sous-produit des processus non reliés directement à la production de statistiques. Les renseignements sur l’heure et le lieu de l’activité de réseau fournis par les compagnies de téléphonie mobile, les messages sur les médias sociaux provenant de Twitter et de Facebook, ainsi que les comportements de recherche sur Internet provenant de Google Trends en sont des exemples. Un problème commun à ces sources de données est que le processus de génération des données est inconnu et vraisemblablement sélectif en ce qui a trait à la population cible recherchée. Par conséquent, l’utilisation de ces données pour la production de statistiques officielles représentatives de la population cible pose un problème difficile. Il n’existe aucun plan d’échantillonnage aléatoire facilitant la généralisation des conclusions et des résultats obtenus avec les données disponibles à une population cible plus grande. Donc, l’extraction d’information statistiquement pertinente à partir de ces sources est une tâche compliquée (Daas et Puts, 2014a).

Baker, Brick, Bates, Battaglia, Couper, Dever, Gile et Tourangeau (2013) étudient le problème de l’utilisation d’échantillons non probabilistes et mentionnent que des procédures d’inférence sous le plan de sondage peuvent être appliquées pour corriger le biais de sélection. Buelens, Burger et van den Brakel (2015) explorent la possibilité d’utiliser des algorithmes statistiques d’apprentissage automatique pour corriger le biais de sélection. Au lieu de remplacer les données d’enquête par des données administratives ou des mégadonnées, on peut se servir de ces sources pour améliorer l’exactitude des données d’enquête dans les procédures d’inférence sous un modèle. Marchetti, Giusti, Pratesi, Salvati, Giannotti, Perdreschi, Rinzivillo, Pappalardo et Gabrielli (2015), ainsi que Blumenstock, Cadamuro et On (2015) ont utilisé des mégadonnées comme source d’information auxiliaire pour des modèles transversaux d’estimation sur petits domaines.

De nombreuses enquêtes réalisées par les instituts nationaux de statistique sont des enquêtes répétées. Dans le présent article, nous appliquons une approche de modélisation de séries chronologiques structurelle multivariée pour combiner les séries obtenues au moyen d’une enquête répétée avec des séries provenant d’autres sources de données. Cet exercice répond à plusieurs objectifs. Premièrement, une procédure d’estimation fondée sur un modèle de séries chronologiques augmente la précision des estimations directes en tirant parti de la corrélation temporelle entre les estimations directes issues des diverses éditions de l’enquête. Le recours à la modélisation de séries chronologiques dans le but d’améliorer la précision des données d’enquête a été envisagé par de nombreux auteurs en remontant jusqu’à Blight et Scott (1973). Deuxièmement, l’extension du modèle de séries chronologiques au moyen d’une série auxiliaire permet de modéliser la corrélation entre les composantes non observées des modèles de séries chronologiques structurels, par exemple, les composantes de tendance et saisonnière. Harvey et Chung (2000) proposent un modèle de séries chronologiques pour l’Enquête sur la population active au Royaume-Uni étendu par une série sur les nombres de bénéficiaires de prestations. Si un tel modèle révèle des corrélations fortement positives entre les composantes, cela pourrait accroître encore davantage la précision des estimations des séries chronologiques de l’enquête. Les indicateurs dérivés des médias sociaux sont généralement disponibles plus fréquemment que la série reliée obtenue au moyen d’enquêtes périodiques. L’approche de modélisation de séries chronologiques susmentionnée peut donc être utilisée pour faire des prédictions précoces en temps réel quant aux résultats de l’enquête, au moment où les données des médias sociaux sont disponibles, tandis que celles de l’enquête ne le sont pas encore. Dans ce cas, les données des médias sociaux constituent une forme de prédiction immédiate. Troisièmement, on peut appliquer le concept de cointégration dans le contexte des modèles espace-état multivariés pour déterminer dans quelle mesure les deux séries sont identiques. Si les composantes tendance des deux séries observées sont cointégrées, ces séries ont pour moteur une tendance commune sous-jacente. On peut soutenir que si une série auxiliaire est cointégrée à la série de l’enquête, les deux séries représentent le même processus stochastique sous-jacent. Cet argument pourrait servir à motiver qu’une statistique mesurée au moyen d’une source de mégadonnées est représentative d’une population cible. Toutefois, cet argument est plutôt empirique et moins solide que la théorie de l’échantillonnage probabiliste, qui prouve que l’échantillonnage aléatoire combiné à un estimateur (approximativement) sans biais sous le plan produit des statistiques représentatives.

L’Enquête sur la confiance des consommateurs (ECC) des Pays-Bas est une enquête réalisée mensuellement auprès d’environ 1 000 personnes en vue de mesurer les sentiments de la population néerlandaise au sujet du climat économique au moyen de ce que l’on appelle l’Indice de confiance des consommateurs (ICC). Daas et Puts (2014b) ont élaboré, à partir des plateformes de médias sociaux, indépendamment de l’ECC, un indice de sentiments qui s’est avéré très bien reproduire l’ICC. Cet indice est nommé Indice basé sur les médias sociaux (IMS). Dans le présent article, nous appliquons l’approche de modélisation de séries chronologiques structurelle multivariée susmentionnée aux deux séries pour tenter d’améliorer la précision de l’ICC. Nous illustrons aussi comment l’IMS peut être utilisé dans ce modèle de séries chronologiques pour faire des prédictions précoces ou prédictions immédiates de l’ICC.

À la section 2, nous décrivons le plan de sondage de l’ECC et la procédure d’estimation utilisée pour produire l’ICC. L’approche suivie par Daas et Puts (2014b) pour construire un indice de sentiments à partir des plateformes de médias sociaux est également décrite. À la section 3, nous proposons un modèle de séries chronologiques structurel pour la série de l’ICC et la série de l’IMS. À la section 4, nous présentons les résultats obtenus au moyen de ce modèle. Enfin, à la section 5, nous concluons l’article par une discussion.


Date de modification :