Les médias sociaux comme source de données pour les statistiques officielles; l’Indice de confiance des consommateurs des Pays-Bas
Section 1. Introduction

Table des matières

Habituellement, les instituts nationaux de statistique font appel à l’échantillonnage probabiliste conjugué à l’inférence sous le plan de sondage ou assistée par modèle pour produire les statistiques officielles. Le concept d’échantillonnage probabiliste aléatoire a été élaboré principalement en se fondant sur les travaux de Bowley (1926), Neyman (1934), ainsi que Hansen et Hurwitz (1943). Consulter, par exemple, Cochran (1977) ou Särndal, Swensson et Wretman (1992) pour une introduction détaillée à la théorie de l’échantillonnage. Il s’agit d’une approche généralement reconnue, puisqu’elle repose sur une théorie mathématique solide qui montre comment, moyennant la combinaison appropriée d’un plan d’échantillonnage aléatoire et d’un estimateur, des inférences statistiques valides peuvent être faites au sujet de grandes populations finies en se basant sur des échantillons relativement petits. En outre, le degré d’incertitude découlant de l’utilisation de petits échantillons peut être quantifié au moyen de la variance des estimateurs.

Une pression constante s’exerce sur les instituts nationaux de statistique afin qu’ils réduisent les coûts administratifs et le fardeau de réponse. De surcroît, la baisse des taux de réponse suscite la recherche de sources d’information statistique de rechange. Cela pourrait se faire en utilisant des données administratives, comme celles des registres de l’impôt, ou d’autres grands ensembles de données – ce qu’il est convenu d’appeler les mégadonnées – qui sont générés en tant que sous-produit des processus non reliés directement à la production de statistiques. Les renseignements sur l’heure et le lieu de l’activité de réseau fournis par les compagnies de téléphonie mobile, les messages sur les médias sociaux provenant de Twitter et de Facebook, ainsi que les comportements de recherche sur Internet provenant de Google Trends en sont des exemples. Un problème commun à ces sources de données est que le processus de génération des données est inconnu et vraisemblablement sélectif en ce qui a trait à la population cible recherchée. Par conséquent, l’utilisation de ces données pour la production de statistiques officielles représentatives de la population cible pose un problème difficile. Il n’existe aucun plan d’échantillonnage aléatoire facilitant la généralisation des conclusions et des résultats obtenus avec les données disponibles à une population cible plus grande. Donc, l’extraction d’information statistiquement pertinente à partir de ces sources est une tâche compliquée (Daas et Puts, 2014a).

Baker, Brick, Bates, Battaglia, Couper, Dever, Gile et Tourangeau (2013) étudient le problème de l’utilisation d’échantillons non probabilistes et mentionnent que des procédures d’inférence sous le plan de sondage peuvent être appliquées pour corriger le biais de sélection. Buelens, Burger et van den Brakel (2015) explorent la possibilité d’utiliser des algorithmes statistiques d’apprentissage automatique pour corriger le biais de sélection. Au lieu de remplacer les données d’enquête par des données administratives ou des mégadonnées, on peut se servir de ces sources pour améliorer l’exactitude des données d’enquête dans les procédures d’inférence sous un modèle. Marchetti, Giusti, Pratesi, Salvati, Giannotti, Perdreschi, Rinzivillo, Pappalardo et Gabrielli (2015), ainsi que Blumenstock, Cadamuro et On (2015) ont utilisé des mégadonnées comme source d’information auxiliaire pour des modèles transversaux d’estimation sur petits domaines.

De nombreuses enquêtes réalisées par les instituts nationaux de statistique sont des enquêtes répétées. Dans le présent article, nous appliquons une approche de modélisation de séries chronologiques structurelle multivariée pour combiner les séries obtenues au moyen d’une enquête répétée avec des séries provenant d’autres sources de données. Cet exercice répond à plusieurs objectifs. Premièrement, une procédure d’estimation fondée sur un modèle de séries chronologiques augmente la précision des estimations directes en tirant parti de la corrélation temporelle entre les estimations directes issues des diverses éditions de l’enquête. Le recours à la modélisation de séries chronologiques dans le but d’améliorer la précision des données d’enquête a été envisagé par de nombreux auteurs en remontant jusqu’à Blight et Scott (1973). Deuxièmement, l’extension du modèle de séries chronologiques au moyen d’une série auxiliaire permet de modéliser la corrélation entre les composantes non observées des modèles de séries chronologiques structurels, par exemple, les composantes de tendance et saisonnière. Harvey et Chung (2000) proposent un modèle de séries chronologiques pour l’Enquête sur la population active au Royaume-Uni étendu par une série sur les nombres de bénéficiaires de prestations. Si un tel modèle révèle des corrélations fortement positives entre les composantes, cela pourrait accroître encore davantage la précision des estimations des séries chronologiques de l’enquête. Les indicateurs dérivés des médias sociaux sont généralement disponibles plus fréquemment que la série reliée obtenue au moyen d’enquêtes périodiques. L’approche de modélisation de séries chronologiques susmentionnée peut donc être utilisée pour faire des prédictions précoces en temps réel quant aux résultats de l’enquête, au moment où les données des médias sociaux sont disponibles, tandis que celles de l’enquête ne le sont pas encore. Dans ce cas, les données des médias sociaux constituent une forme de prédiction immédiate. Troisièmement, on peut appliquer le concept de cointégration dans le contexte des modèles espace-état multivariés pour déterminer dans quelle mesure les deux séries sont identiques. Si les composantes tendance des deux séries observées sont cointégrées, ces séries ont pour moteur une tendance commune sous-jacente. On peut soutenir que si une série auxiliaire est cointégrée à la série de l’enquête, les deux séries représentent le même processus stochastique sous-jacent. Cet argument pourrait servir à motiver qu’une statistique mesurée au moyen d’une source de mégadonnées est représentative d’une population cible. Toutefois, cet argument est plutôt empirique et moins solide que la théorie de l’échantillonnage probabiliste, qui prouve que l’échantillonnage aléatoire combiné à un estimateur (approximativement) sans biais sous le plan produit des statistiques représentatives.

L’Enquête sur la confiance des consommateurs (ECC) des Pays-Bas est une enquête réalisée mensuellement auprès d’environ 1 000 personnes en vue de mesurer les sentiments de la population néerlandaise au sujet du climat économique au moyen de ce que l’on appelle l’Indice de confiance des consommateurs (ICC). Daas et Puts (2014b) ont élaboré, à partir des plateformes de médias sociaux, indépendamment de l’ECC, un indice de sentiments qui s’est avéré très bien reproduire l’ICC. Cet indice est nommé Indice basé sur les médias sociaux (IMS). Dans le présent article, nous appliquons l’approche de modélisation de séries chronologiques structurelle multivariée susmentionnée aux deux séries pour tenter d’améliorer la précision de l’ICC. Nous illustrons aussi comment l’IMS peut être utilisé dans ce modèle de séries chronologiques pour faire des prédictions précoces ou prédictions immédiates de l’ICC.

À la section 2, nous décrivons le plan de sondage de l’ECC et la procédure d’estimation utilisée pour produire l’ICC. L’approche suivie par Daas et Puts (2014b) pour construire un indice de sentiments à partir des plateformes de médias sociaux est également décrite. À la section 3, nous proposons un modèle de séries chronologiques structurel pour la série de l’ICC et la série de l’IMS. À la section 4, nous présentons les résultats obtenus au moyen de ce modèle. Enfin, à la section 5, nous concluons l’article par une discussion.

ISSN : 1712-5685

Politique de rédaction

Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.

Présentation de textes pour la revue

Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).

Note de reconnaissance

Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.

Normes de service à la clientèle

Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.

Droit d'auteur

Publication autorisée par le ministre responsable de Statistique Canada.

L'utilisation de la présente publication est assujettie aux modalités de l'Entente de licence ouverte de Statistique Canada.

N° 12-001-X au catalogue

Périodicité : Semi-annuel

Ottawa

Date de modification :: 2017-12-21

Sélection de la langue

Recherche et menus

Recherche

Les médias sociaux comme source de données pour les statistiques officielles; l’Indice de confiance des consommateurs des Pays-Bas
Section 1. Introduction

Les médias sociaux comme source de données pour les statistiques officielles; l’Indice de confiance des consommateurs des Pays-Bas Section 1. Introduction

Politique de rédaction

Présentation de textes pour la revue

Note de reconnaissance

Normes de service à la clientèle

Droit d'auteur

Les médias sociaux comme source de données pour les statistiques officielles; l’Indice de confiance des consommateurs des Pays-Bas
Section 1. Introduction