5. Quelles sources de données utiliser pour soutenir les enquêtes?

Constance F. Citro

Précédent | Suivant

Pendant des décennies après l’introduction de l’échantillonnage probabiliste en statistique officielle, la seule autre source de données était les dossiers administratifs - provenant de divers paliers de gouvernement, selon la structure gouvernementale du pays (fédéral, État et local aux États-Unis), et de diverses entités non gouvernementales (p. ex. dossiers de paye des employeurs ou dossiers d’admission des hôpitaux). Un certain nombre d’organismes statistiques nationaux dans le monde ont commencé à intégrer des dossiers administratifs dans leurs programmes - cette intégration allant de leur utilisation accessoire au transfert, sans distinction aucune, des enquêtes et des recensements à un paradigme axé sur les dossiers administratifs.

Grâce aux innovations technologiques des années 1970 et des années 1980, certaines sources de données supplémentaires, comme les enregistrements des dépenses aux caisses (rendus possibles par le développement des codes à barres et des scanneurs), et les images aériennes et par satellite pour catégoriser l’utilisation des terres, sont devenues disponibles, du moins potentiellement, pour la production de statistiques officielles. Cependant, l’univers des sources de données demeurait relativement limité. À partir des années 1990, l’avènement d’Internet et de la technologie de l’informatique haute-vitesse a donné le jour à un extraordinaire éventail de nouvelles sources de données, dont les données envoyées par les caméras de circulation, la localisation des téléphones mobiles, les termes de recherche utilisés sur le Web et les affichages sur les sites des médias sociaux. Le défi pour les organismes statistiques consiste à classer et à évaluer toutes ces sources de données d’une manière qui les aide à en déterminer l’utilité.

5.1 Le concept des « mégadonnées » est-il utile?

Bon nombre de nouvelles catégories de données devenues disponibles au cours des quelque 15 dernières années sont souvent de très grande taille, ce qui a donné naissance au terme de « mégadonnées ». Je soutiens que ce terme à la mode n’aide que fort peu, voire nullement, les organismes statistiques à déterminer quelles sont les combinaisons de données convenant pour leurs programmes. En sciences informatiques, « les mégadonnées sont des fonds d’information à grand volume, grande vélocité et/ou grande variété qui nécessitent de nouvelles formes de traitement pour permettre la prise de meilleures décisions, la découverte d’idées et l’optimisation des processus » [Traduction] (Laney 2001). Ces propriétés ne sont pas inhérentes à un type particulier de données ou à une plateforme particulière, telle qu’Internet. Ce qui peut être considéré comme des « mégadonnées » est plutôt une cible en évolution à mesure que l’informatique à haute vitesse et les techniques d’analyse des données progressent. Dans l’environnement informatique actuel, les données de recensement, d’enquête et de dossiers administratifs peuvent rarement être qualifiées de « mégadonnées », même si elles auraient pu l’être à une époque antérieure. Aujourd’hui, les gens ont tendance à considérer comme étant des « mégadonnées » les flux de données provenant de caméras, de détecteurs et d’interactions en grande partie libres avec Internet, comme les messages sur les médias sociaux. À l’avenir, bon nombre de ces types de données pourraient ne plus rentrer dans cette catégorie. De plus, en ce qui concerne Internet, celui-ci génère non seulement une grande quantité de « mégadonnées » contemporaines, mais il facilite aussi l’accès à des données de volume plus habituel - par exemple, accès aux sondages d’opinion ou aux registres fonciers locaux.

À mon avis, les organismes statistiques souhaiteront le plus souvent, et devraient, être des « adeptes suivant de près les leaders » plutôt que des leaders de l’utilisation des mégadonnées. Il me paraît plus approprié que le milieu universitaire et le secteur privé soient les premiers à s’attaquer à l’utilisation de données aussi volumineuses et d’une telle vélocité et variété qu’elles nécessitent de grands pas en avant dans l’élaboration de nouvelles formes de traitement et d’analyse. Les organismes statistiques devraient se tenir au courant des avancées dans le domaine des mégadonnées qui pourraient être prometteuses pour leurs programmes et ils seraient bien avisés d’appuyer la recherche dans ces domaines pour s’assurer que les applications pertinentes pour leurs programmes voient le jour. Toutefois, je pense que les ressources des organismes statistiques devraient être consacrées principalement à l’utilisation de sources de données qui offrent des avantages dont l’utilité est plus immédiate.

Groves (2011) a tenté de passer à une classification plus pertinente pour les organismes statistiques que celle comprenant les « mégadonnées », d’une part, et toutes les autres données, d’autre part, en faisant la distinction entre ce qu’il appelle les « données conçues » qui sont « produites pour découvrir ce qui n’est pas mesuré » et les « données organiques » qui sont « produites secondairement aux processus, pour enregistrer le processus ». Keller, Koonin et Shipp (2012) énumèrent des exemples de sources de données sous les deux en‑têtes de Groves. Leur liste de données conçues comprend les données administratives (p. ex. dossiers fiscaux), les enquêtes fédérales, les recensements de la population et les « autres données recueillies pour répondre à des questions stratégiques particulières ». Leur liste de données organiques comprend les données de localisation (« données externes » de téléphones mobiles, de transpondeurs pour postes de péage, de caméras de surveillance), les préférences politiques (dossiers d’enregistrement des électeurs, votes aux élections primaires, contributions aux partis politiques), les renseignements commerciaux (transactions sur carte de crédit, ventes de propriété, recherches en ligne, identification de radiofréquences), les renseignements sur la santé (dossiers médicaux électroniques, admissions à l’hôpital, appareils pour surveiller les signes vitaux, ventes des pharmacies), et autres données organiques (imagerie optique, infrarouge et spectrale, mesures météorologiques, mesures sismiques et acoustiques, rayonnements ionisants biologiques et chimiques). Sans omettre, sous chaque catégorie, des données telles que les messages affichés sur Facebook ou Twitter, bien qu’ils puissent se retrouver sous la rubrique plus générale des « recherches en ligne ».

La question est de savoir si la classification en deux catégories de Keller et coll. (2012) est plus utile que celle de « mégadonnées » pour les besoins des organismes statistiques. Par exemple, classer les dossiers d’inscription des électeurs ou les dossiers de santé électroniques comme des données organiques plutôt que comme des données administratives conçues semble ne pas tenir compte des façons dont elles diffèrent de sources telles que les recherches en ligne et des façons dont elles sont similaires aux dossiers administratifs de l’administration fédérale et des États. En outre, même les données organiques sont « conçues », si ce n’est que de manière minimale, en ce sens que le fournisseur a spécifié certains paramètres, tels que les 140 caractères pour un message sur Twitter ou un angle de vision particulier pour une caméra de circulation. Néanmoins, la distinction entre données conçues et données organiques met en relief une dimension utile, qui est le degré auquel les organismes statistiques ont déjà accès à une source de données, contrôlent les changements apportés à une source de données et sont capables de comprendre facilement les propriétés d’une source de données.

5.2 Dimensions des sources de données : illustrations pour quatre grandes catégories

Établir une nomenclature et des critères d’évaluation satisfaisants qui peuvent aider les organismes statistiques à évaluer l’utilité éventuelle de diverses sources de données pour leurs programmes, dans le but de comprendre aussi bien les propriétés d’erreur des sources de données de rechange qu’ils ne comprennent l’erreur totale dans le cas des enquêtes, demandera un effort considérable de la part des organismes statistiques du monde entier (Iwig et coll. 2013 et Daas et coll. 2012, sont des exemples de tels efforts). Je ne prétends pas pouvoir m’approcher de ce but dans le présent article. Mon objectif est plus modeste - à savoir donner certaines illustrations afin que ceux et celles qui sont des inconditionnels du paradigme des enquêtes par échantillonnage probabiliste (ou du paradigme des dossiers administratifs) puissent voir que la tâche de comprendre d’autres sources de données est à la fois faisable et souhaitable. Je fournis des illustrations pour quatre sources de données variant du classique à l’avant-garde :

  1. Enquêtes et recensements, ou un ensemble de données tirées des réponses de particuliers qui sont interrogés sur un ou plusieurs sujets selon le plan établi par l’enquêteur (organisme statistique, autre organisme gouvernemental ou organisme universitaire ou privé d’enquête) conformément aux principes de la recherche par enquête dans le but de produire des données généralisables pour une population définie.

  2. Dossiers administratifs ou un ensemble de données obtenues au moyen de formulaires conçus par un organisme administratif conformément à une loi, un règlement ou une politique pour exploiter un programme, comme le versement de prestations à des bénéficiaires admissibles ou pour le versement de salaires. Les dossiers administratifs sont habituellement permanents et peuvent être gérés par des organismes gouvernementaux ou des organisations non gouvernementales.

  3. Dossiers de transactions commerciales, ou un ensemble de données obtenues par saisie électronique d’achats (p. ex. épicerie, biens immobiliers) effectués par un acheteur, mais sous une forme déterminée par un vendeur (p. ex. renseignements sur les produits et prix sous forme de codes à barres enregistrés par les scanneurs des caisses, enregistrements de renseignements sur les produits et les prix provenant des ventes en ligne, comme par l’intermédiaire d’Amazon).

  4. Interactions des particuliers avec le Web en utilisant des outils fournis commercialement, comme un navigateur Web ou un site de média social. Cette catégorie englobe un éventail vaste et en constante évolution de sources de données possibles pour lesquelles il n’existe aucune classification simple. L’une des caractéristiques déterminantes est que les personnes qui fournissent l’information, comme un message sur Twitter, agissent de manière autonome : elles ne doivent pas répondre à un questionnaire ou fournir des renseignements administratifs, mais choisissent plutôt de lancer une interaction.

Je commence par classer chaque source en fonction de deux dimensions, qui sont liées au cadre décrit dans Biemer et coll. (2014). J’attribue le classement en supposant qu’un organisme statistique n’a pas encore pris de mesure proactive afin de l’améliorer (p. ex. en intégrant du personnel dans un organisme administratif afin qu’il se familiarise en profondeur avec les dossiers de cet organisme). Les deux dimensions sont les suivantes :

  1. Degré d’accessibilité de l’organisme statistique national à la source et de contrôle qu’il exerce sur la source : élevé (l’organisme statistique conçoit la source de données et contrôle les changements qui y sont apportés); moyen (l’organisme statistique est autorisé à utiliser la source de données et influe sur les changements qui y sont apportés); faible (l’organisme statistique doit s’arranger pour obtenir la source de données conformément aux conditions établies par le fournisseur et n’a que peu d’influence, voire aucune, sur les changements qui y sont apportés). Une gradation peut être ajoutée à chacune de ces catégories selon, par exemple, la force de l’autorité dont dispose l’organisme pour acquérir un ensemble de dossiers administratifs.

  2. Degré possible de détermination et de mesure des composantes de l’erreur : élevé, comme dans le cas des enquêtes et des recensements conçus par l’organisme; moyen, comme dans le cas des dossiers administratifs des secteurs public et privé; et faible, comme dans le cas des flux de données provenant de choix autonomes de particuliers.

Je détermine ensuite des aspects de la qualité des données pour chaque source, à l’instar de Biemer et coll. (2014). J’indique aussi les variations pour la plupart des dimensions selon le fournisseur, comme un organisme statistique national, une autre unité gouvernementale nationale, un autre palier de gouvernement, une institution universitaire ou une entité commerciale. Toute cette information est regroupée dans le tableau 5.1 au mieux de mes connaissances.

Une source idéale pour un organisme statistique, toutes choses étant égales par ailleurs, est une source qui est fournie, conçue et contrôlée par l’organisme, et pour laquelle les erreurs peuvent être identifiées et mesurées et sont généralement maîtrisées, comme dans le cas d’une enquête à échantillonnage probabiliste de haute qualité, mise sur pied par l’organisme. À l’autre extrême se trouve une source de données qui est contrôlée par une ou plusieurs entreprises privées (p. ex. données de scanneur) ou, peut-être, des centaines ou des milliers d’administrations publiques locales (p. ex. caméras de circulation), pour laquelle les données résultent de choix autonomes ou de mouvements non contrôlés, et pour laquelle il est difficile de conceptualiser, sans parler de mesurer, les erreurs dans la source de données. Pourtant, étant donné qu’un organisme statistique est chargé de fournir aux décideurs et aux membres du public des statistiques pertinentes, à jour et exactes dont le coût et le fardeau de réponse sont réduits au minimum, il pourrait fort bien exister des sources de données autres que les enquêtes qui justifient l’effort de les rendre utilisables à des fins statistiques. Je soutiens que les menaces qui pèsent sur le paradigme des enquêtes passées en revue plus haut rendent impérative la prise en considération d’autres sources de données, car il n’est plus possible de démontrer que les enquêtes représentent en tout temps et en toutes circonstances un meilleur choix que d’autres sources - elles n’obtiennent pas systématiquement une cote « élevée » sur les dimensions prises en compte dans le tableau 5.1.

Je soutiens aussi que les dossiers administratifs gouvernementaux, qui, comme l’indique le tableau 5.1, possèdent plus souvent les propriétés souhaitables pour la production de statistiques officielles que d’autres sources de données non issues d’enquêtes, devraient être considérés par les organismes statistiques comme une option toute désignée pour une intégration aussi étendue que possible dans leurs programmes d’enquêtes s’ils ne l’ont pas déjà fait. Les dossiers administratifs sont créés conformément à des règles concernant la population admissible, les personnes qui doivent fournir quel type d’information, les mesures qui doivent être prises par l’organisme administratif pertinent en se basant sur l’information (p. ex. remboursement d’impôt, versement de prestations), et ainsi de suite. Cela devrait permettre à un organisme statistique, moyennant l’effort requis, de se familiariser avec les structures d’erreur des dossiers administratifs comme ils le sont avec l’erreur totale d’enquête. Couper (2013) offre une discussion utile quelque peu semblable à la mienne. Il découvre des failles dans la capacité des sources de données organiques à être aussi utiles qu’on l’affirme, sans parler des affirmations quant à leur capacité de remplacer les enquêtes par échantillonnage probabiliste, mais il avertit les chercheurs d’enquête que s’ils ignorent les sources de données organiques, ils le font à leurs risques et périls. Ironiquement, sa conclusion qu’il faut utiliser certaines sources organiques est renforcée par l’erreur qu’il commet en classant les dossiers administratifs comme étant des données organiques. Leur classification correcte est celle de données conçues, même si elles ne le sont pas par un organisme statistique.

Tableau 5.1
Classement (ÉLEVÉ, MOYEN, FAIBLE, TRÈS FAIBLE ou VARIABLE) de quatre sources de données sur les dimensions d’utilisation dans les statistiques officielles
Sommaire du tableau
Le tableau montre les résultats de Classement (ÉLEVÉ. Les données sont présentées selon Dimension/ Source de données (titres de rangée) et Recensement/enquête probabiliste (p. ex. CPS/ASEC, ACS, NHIS - voir tableau 2.1), Dossiers administratifs (p. ex. impôt sur le revenu, sécurité sociale, chômage, paye), Enregistrements de transactions commerciales (p. ex. données de scanneurs et de cartes de crédit) et Interactions des particuliers avec Internet (p. ex. Twitter; volumes de termes de recherche dans Google), calculées selon Attributs de la qualité des données (Biemer et coll. 2014) et Exactitude (composantes de l’erreur)* unités de mesure (figurant comme en-tête de colonne).
Dimension/ Source de données Recensement/enquête probabiliste (p. ex. CPS/ASEC, ACS, NHIS - voir tableau 2.1) Dossiers administratifs (p. ex. impôt sur le revenu, sécurité sociale, chômage, paye) Enregistrements de transactions commerciales (p. ex. données de scanneurs et de cartes de crédit) Interactions des particuliers avec Internet (p. ex. Twitter; volumes de termes de recherche dans Google)
Degré de contrôle/ d’accessibilité de la source par l’organisme statistique ÉLEVÉ (enquête menée pour l’organisme statistique);

MOYEN à FAIBLE (enquête menée pour un organisme privé).
ÉLEVÉ à MOYEN (dossiers d’un organisme national);

MOYEN à FAIBLE (dossiers d’État ou dossiers locaux);

MOYEN à FAIBLE (dossiers commerciaux).
MOYEN à FAIBLE TRÈS FAIBLE
Degré de capacité de l’organisme statistique à déterminer/ évaluer les propriétés/ erreurs ÉLEVÉ (enquête menée pour l’organisme statistique);

VARIABLE (enquête menée pour un organisme privé, dépend de la documentation et de la transparence).
ÉLEVÉ à MOYEN (dossiers d’un organisme national);

MOYEN à FAIBLE (dossiers d’État ou dossiers locaux);

MOYEN à FAIBLE (dossiers commerciaux).
MOYEN (dans la mesure où les enregistrements sont conformes aux normes reconnues (p. ex. pour les codes à barres et les renseignements sur les prix). TRÈS FAIBLE
  Attributs de la qualité des données (Biemer et coll. 2014)
Pertinence pour les décideurs et les membres du public - Concepts et mesures ÉLEVÉE pour une enquête menée pour l’organisme statistique, en supposant qu’elle est bien conçue et que les concepts et les mesures sont à jour;

VARIABLE pour des enquêtes menées pour des organismes privés.
VARIABLE d’un système de dossiers à l’autre et à l’intérieur des systèmes de dossiers (p. ex. les dossiers de versement de prestations peuvent être très pertinents, tandis que les renseignements sur la composition de la famille peuvent s’appuyer sur un concept différent). VARIABLE VARIABLE, mais TRÈS FAIBLE dans l’état actuel des moyens d’acquérir, évaluer et analyser ces types de données.
Pertinence -Covariables utiles ÉLEVÉE pour la plupart des enquêtes. VARIABLE, mais rarement aussi élevée que pour la plupart des enquêtes. VARIABLE, mais rarement aussi élevée que pour la plupart des enquêtes. VARIABLE, mais habituellement FAIBLE.
Fréquence de collecte des données D’hebdomadaire à toutes les deux ou trois années (toutes les décennies pour le recensement de la population des États-Unis); quelques enquêtes privées, comme les sondages électoraux, peuvent être exécutées à chaque jour. En général, les dossiers sont mis à jour fréquemment (p. ex. quotidiennement) et continuellement. En général, les enregistrements sont mis à jour fréquemment (p. ex. au moment de la transaction ou quotidiennement) et continuellement. Les interactions sont saisies instantanément.
Actualité des données diffusées VARIABLE, dépend de l’effort de l’organisme statistique ou de l’organisme privé, mais un certain décalage par rapport à la période de référence de la réponse est inévitable. VARIABLE, mais un certain décalage par rapport à la date de référence à laquelle les dossiers ont été acquis par l’organisme statistique est probable. VARIABLE, mais vraisemblablement de longs délais pour l’acquisition de données exclusives par l’organisme statistique. VARIABLE, mais vraisemblablement de longs délais (quoique le Billion Prices Project du MIT ait établi des modalités d’accès très rapide aux prix sur Internet; voir bpp.mit.edu).
Comparabilité et cohérence ÉLEVÉES dans le temps et dans l’espace (géographie) au sein d’une enquête (sauf en cas de changement délibéré ou de changement sociétal affectant les mesures qui n’est pas pris en compte);

VARIABLES selons enquêtes.
ÉLEVÉES au sein du système de dossiers (changements apportés aux dossiers gouvernementaux généralement annoncés par un changement juridique/ réglementaire/ de politique; changements apportés aux dossiers commerciaux vraisemblablement opaques).

VARIABLES, selon les systèmes de dossiers.
ÉLEVÉES au sein du système d’enregistrements (changements généralement opaques pour l’organisme statistique);

VARIABLES entre les systèmes d’enregistrements.
TRÈS FAIBLES, en ce sens que les fournisseurs (p. ex. Twitter) peuvent ajouter/soustraire des caractéristiques ou abandonner complètement un produit; changements généralement opaques pour l’organisme statistique; les auteurs des interactions peuvent avoir des cadres de référence très différents.
  Exactitude (composantes de l’erreur)Note *
Erreur de base de sondage VARIABLE, possibilité d’un sous-dénombrement ou d’un surdénombrement important. La base de sondage est habituellement bien définie par une loi, un règlement ou une politique; le problème en cas d’utilisation par un organisme statistique est que la base de sondage pourrait ne pas être exhaustive. La base de sondage est mal définie pour les besoins d’un organisme statistique, en ce sens qu’elle représente quiconque a eu un achat scanné par un vendeur spécifié ou a utilisé une carte de crédit particulière pour un achat durant une période spécifiée; pose un grand défi à l’organisme statistique en ce qui concerne la détermination de l’usage approprié. La base de sondage est mal définie pour les besoins d’un organisme statistique, en ce sens qu’elle représente quiconque a décidé, par exemple, de créer un compte Twitter ou d’effectuer une recherche dans Google durant une période spécifiée; pose un grand défi à l’organisme statistique en ce qui concerne la détermination de l’usage approprié.
Non-réponse (totale et partielle) VARIABLE; peut être importante. VARIABLE (p. ex. les dossiers de la sécurité sociale couvrent vraisemblablement presque toutes les personnes admissibles, mais les dossiers fiscaux reflètent vraisemblablement la fraude fiscale sous forme d’omission de produire une déclaration de revenus ou de non-déclaration de certains revenus). SANS OBJET, en ce sens que les « répondants » sont autosélectionnés; le défi pour l’organisme statistique consiste à déterminer l’utilisation appropriée qui ne requiert pas l’hypothèse d’un mécanisme probabiliste. SANS OBJET, en ce sens que les « répondants » sont autosélectionnés; le défi pour l’organisme statistique consiste à déterminer l’utilisation appropriée qui ne requiert pas l’hypothèse d’un mécanisme probabiliste.
Erreur de mesure VARIABLE, au sein des enquêtes, par question, et entre les enquêtes pour des questions comparables; souvent mal évaluée, même pour les enquêtes réalisées par les organismes statistiques. VARIABLE entre les systèmes de dossiers et au sein des systèmes de dossiers, par question, selon la mesure dans laquelle la question joue un rôle central dans le fonctionnement du programme (p. ex. une question sur le versement de prestations est vraisemblablement plus exacte que des éléments de données obtenus auprès des bénéficiaires, comme la situation d’emploi). SANS OBJET pour la source de données en tant que telle, quoique toute caractéristique ajoutée par le vendeur en provenance d’une autre source peut ou non être valide; le défi pour l’organisme statistique consiste à ne pas introduire d’erreur de mesure en utilisant les données de manière inappropriée. SANS OBJET pour la source de données en tant que telle, quoique toute caractéristique ajoutée par le vendeur en provenance d’une autre source peut ou non être valide; le défi pour l’organisme statistique consiste à ne pas introduire d’erreur de mesure en utilisant les données de manière inappropriée.
Erreur de traitement des données VARIABLE (p. ex. possibilité d’erreur de saisie des données ou de recodage), mais fait habituellement l’objet d’un bon contrôle statistique, bien que cela soit plus difficile à évaluer pour les enquêtes réalisées par des organismes privés. VARIABLE (p. ex. possibilité d’erreurs de saisie-clavier ou de codage), vraisemblablement mieux contrôlée pour les variables clés (p. ex. versements de prestations) que pour d’autres variables, mais difficile pour l’organisme statistique de l’évaluer. VARIABLE (p. ex. possibilité d’erreurs lors de l’attribution des codes à barres ou des prix), vraisemblablement bien contrôlée, mais difficile pour l’organisme statistique de l’évaluer. SANS OBJET, en ce sens que l’erreur n’est pas définie, quoiqu’il puisse y avoir à l’occasion des problèmes tels que, disons, l’écrasement et la perte d’une journée complète de messages Twitter.
Erreur de modélisation/ estimation Biais découlant de processus tels que la pondération et l’imputation VARIABLE; souvent, l’organisme statistique déploie d’intenses efforts afin de bien concevoir l’enquête au départ, mais ne procède pas à un réexamen pour s’assurer que les procédures continuent d’être valides. SANS OBJET (habituellement), en ce sens que les dossiers sont des données « brutes », sauf peut-être dans le cas de certaines variables recodées, mais un biais peut être introduit par l’organisme statistique durant le retraitement. SANS OBJET (habituellement), en ce sens que les enregistrements sont des données « brutes », sauf peut-être dans le cas de certaines variables recodées ou résumées, mais un biais peut être introduit par l’organisme statistique durant le retraitement. SANS OBJET (habituellement), en ce sens que les enregistrements sont des données « brutes », mais le retraitement par l’organisme statistique peut introduire un biais important (p. ex. en considérant que le terme « licencié » est toujours indicateur de chômage dans l’analyse des messages Twitter).
Erreur de spécification VARIABLE (p. ex. l’état de santé autodéclaré peut indiquer validement la perception du répondant, mais pas nécessairement l’état de santé physique ou mental diagnostiqué); peut évoluer au cours du temps (p. ex. à mesure que l’usage des mots évolue parmi le public). VARIABLE; peut être importante si les concepts dans les dossiers administratifs diffèrent de ceux dont l’organisme statistique a besoin (p. ex. les règles concernant la déclaration des revenus sur les formulaires de déclaration peuvent ne pas tenir compte de composantes telles que des avantages de cafétéria). VARIABLE; peut être faible ou élevée en fonction de la mesure dans laquelle les données correspondent aux besoins de l’organisme statistique. VARIABLE, mais vraisemblablement importante dans l’état actuel des moyens d’acquérir, d’évaluer et d’analyser ces types de données émanant de choix relativement libres effectués par des individus autonomes.
FardeauNote * VARIABLE, peut être élevé. PAS DE FARDEAU SUPPLÉMENTAIRE imposé par l’organisme statistique à la population pertinente (p. ex. bénéficiaires), mais fardeau imposé à l’organisme administratif. PAS DE FARDEAU SUPPLÉMENTAIRE imposé par l’organisme statistique à la population pertinente (p. ex. acheteurs), mais fardeau imposé au fournisseur. PAS DE FARDEAU SUPPLÉMENTAIRE imposé par l’organisme statistique à la population pertinente (p. ex. afficheurs de messages sur Twitter), mais fardeau imposé au fournisseur.
CoûtNote * VARIABLE, peut être élevé; l’organisme statistique assume la totalité des coûts de conception, de collecte, de traitement et d’estimation. VARIABLE, mais peut être plus faible que pour une enquête comparable, parce que l’organisme administratif assume les coûts de collecte des données, mais l’organisme statistique assume vraisemblablement des coûts de manipulation/ traitement spécial. VARIABLE comme pour les dossiers administratifs, mais le fournisseur souhaite vraisemblablement un paiement; l’organisme statistique assume vraisemblablement des coûts de traitement spécial/ manipulation/ analyse. VARIABLE comme pour les dossiers administratifs, mais le fournisseur souhaite vraisemblablement un paiement; les coûts supplémentaires assumés par l’organisme statistique pour le traitement/ analyse de données non structurées peuvent être élevés.

5.3 Utilisations des dossiers administratifs dans les programmes fondés sur des enquêtes-ménages

Les participants aux enquêtes-ménages ont prouvé maintes fois que leurs réponses à de nombreuses questions importantes sur le revenu, la richesse, les dépenses et d’autres sujets ne sont pas très exactes. Dans de nombreux cas, l’utilisation de dossiers administratifs offre la possibilité de remédier à cette situation. Une autre stratégie adoptée par de nombreux programmes d’enquêtes-ménages aux États-Unis consiste à inviter les répondants eux-mêmes à consulter leurs propres dossiers, comme les déclarations de revenus, lorsqu’ils répondent aux questions sur le revenu ou des sujets similaires. Sans aucun doute, les réponses sont vraisemblablement plus exactes lorsque les dossiers sont consultés, comme Johnson et Moore (pas de date) le constatent dans une comparaison de dossiers fiscaux aux réponses à la SCF pour l’exercice 2000. Cependant, la stratégie proprement dite semble être en grande partie un exercice futile. Selon la même étude de la SCF réalisée par Johnson et Moore, seulement 10 % des ménages dont le revenu brut ajusté est inférieur à 50 000 $ consultent leurs dossiers et seulement 22 % des ménages à revenu élevé le font. Voir National Research Council (2013a, p. 89-91) ainsi que Moore, Marquis et Bogen (1996) pour des constatations similaires au sujet des difficultés à obtenir que les répondants consultent leurs dossiers.

En me penchant maintenant sur les stratégies que les organismes statistiques peuvent adopter pour travailler directement avec des données administratives, je cerne huit façons selon lesquelles les dossiers administratifs peuvent contribuer à la qualité des données des enquêtes-ménages, à savoir 1) aider à évaluer la qualité des données d’enquête, en les comparant à des estimations agrégées, ajustées comme il convient pour tenir compte des différences d’univers et de concepts entre les populations, et par appariement exact des enregistrements de l’enquête et des enregistrements administratifs; 2) fournir des totaux de contrôle pour l’ajustement des poids de sondage afin de tenir compte des erreurs de couverture; 3) fournir des bases de sondage supplémentaires pouvant être utilisées dans un plan à bases de sondage multiples; 4) fournir des renseignements supplémentaires à annexer aux enregistrements d’enquête appariés pour améliorer la pertinence et l’utilité des données; 5) fournir des covariables pour les estimations fondées sur un modèle pour des régions géographiques plus petites que celles pour lesquelles des estimations peuvent être produites directement d’après l’enquête; 6) améliorer les modèles pour l’imputation des données manquantes dans les enregistrements de l’enquête; 7) remplacer « non » pour les participants à l’enquête qui auraient dû répondre à une question, remplacer « oui » pour les participants à l’enquête qui n’auraient pas dû répondre à une question, et remplacer les valeurs déclarées pour les participants à l’enquête qui ont fourni une réponse erronée à une question; et 8) remplacer les questions de l’enquête et utiliser les valeurs des dossiers administratifs directement. Dans une version non publiée plus longue du présent article, je donne des exemples actuels et possibles de chaque type d’utilisation et énumère les avantages, les problèmes de confidentialité et de perception du public, ainsi que les limites et les problèmes de faisabilité pour chaque utilisation, de manière générique et en particulier pour les enquêtes-ménages américaines portant sur des sujets tels que le revenu, les actifs et les dépenses. Ce qui importe, en ce qui me concerne, est que les avantages doivent surpasser les inconvénients, étant donné un programme soutenu, pour intégrer des systèmes de dossiers administratifs à des programmes statistiques.

5.4 Utilisations possibles de sources de données non habituelles

Ayant indiqué antérieurement que les données provenant d’autres sources que les enquêtes et les dossiers administratifs posent un certain nombre de problèmes pour la production de statistiques officielles, il serait négligent de ma part de ne pas discuter brièvement des raisons pour lesquelles ces données semblent si intéressantes. Les entreprises privées ont des fonctions de perte très différentes de celles des organismes statistiques - elles cherchent à avoir un avantage sur leurs concurrents. Des données qui sont plus à jour et qui indiquent des moyens d’accroître les ventes et les profits sont vraisemblablement utiles à l’entreprise privée, même si elles ne couvrent pas entièrement une population ou qu’elles ont d’autres inconvénients pour les statistiques officielles. Dans cette perspective, les types d’expériences que réalise une entreprise telle que Google, en utilisant ses propres « mégadonnées », afin de trouver des moyens d’augmenter les publicités visionnées sont de bons investissements (voir, par exemple, McGuire, Manyika et Chui 2012). De même, les organismes chargés des programmes, à tous les paliers de gouvernement, souvent en collaboration avec des centres universitaires, regroupent et analysent leurs propres données et d’autres de façons novatrices afin de déceler des tendances, « points chauds », etc., non seulement pour améliorer leurs programmes et planifier de nouveaux services, mais aussi pour classer les ressources par ordre de priorité et améliorer la réponse en temps réel (voir, par exemple, le Center for Urban Science and Progress à l’Université de New York (http://cusp.nyu.edu/), ainsi que le Urban Center for Computation and Data à l’Université de Chicago (https://urbanccd.org)).

Les organismes statistiques ont besoin, avant tout et par-dessus tout, de sources de données qui couvrent une population connue et présentent des propriétés d’erreur qui sont raisonnablement bien comprises et qui ne sont pas susceptibles de changer sans qu’on s’y attende, c’est‑à‑dire exemptes de caractéristiques qui sont inhérentes à des sources comme les interactions autonomes avec des sites Web sur Internet. Les programmes fondés sur les enquêtes-ménages des organismes statistiques disposent toutefois d’au moins deux moyens qui pourraient leur permettre de tirer un « avantage » de sources de données non habituelles : l’un consiste à améliorer l’actualité des estimations provisoires des statistiques clés, et l’autre consiste à fournir des indicateurs avancés de l’évolution sociale (p. ex. l’émergence de nouveaux domaines de formation et professions) qui avertissent les organismes statistiques qu’il est nécessaire de modifier leurs concepts et leurs mesures.

Précédent | Suivant

Signaler un problème sur cette page

Quelque chose ne fonctionne pas? L'information n'est plus à jour? Vous ne trouvez pas ce que vous cherchez?

S'il vous plaît contactez-nous et nous informer comment nous pouvons vous aider.

Avis de confidentialité

Date de modification :