Publications

    Statistique Canada : Lignes directrices concernant la qualité

    Analyse et présentation des données

    Warning Consulter la version la plus récente.

    Information archivée dans le Web

    L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

    Portée et objet
    Principes
    Lignes directrices
    Indicateurs de qualité
    Bibliographie

    Portée et objet

    L'analyse des données est le processus qui consiste à examiner et à interpréter des données afin d'élaborer des réponses à des questions. Les principales étapes du processus d'analyse consistent à cerner les sujets d'analyse, à déterminer la disponibilité de données appropriées, à décider des méthodes qu'il y a lieu d'utiliser pour répondre aux questions d'intérêt, à appliquer les méthodes et à évaluer, résumer et communiquer les résultats.

    Les résultats analytiques soulignent l'utilité des sources de données en jetant de la lumière sur les sujets pertinents. Certains programmes de Statistique Canada dépendent des résultats analytiques à titre de principal produit de données, car, pour des raisons de confidentialité, il est impossible de diffuser les microdonnées. L'analyse des données joue également un rôle clé dans le processus d'évaluation de la qualité des données en indiquant les problèmes liés à la qualité des données dans une enquête particulière. Ainsi, l'analyse peut influer sur les améliorations futures au processus d'enquête.

    L'analyse des données est essentielle pour comprendre les résultats des enquêtes, des sources administratives et des études pilotes, pour obtenir des renseignements sur les lacunes en matière de données, pour concevoir et remanier les enquêtes, pour planifier de nouvelles activités statistiques et pour formuler des objectifs en matière de qualité.

    Les résultats de l'analyse des données sont souvent publiés ou résumés dans les diffusions officielles de Statistique Canada.

    Principes

    Un organisme statistique veille à la pertinence et à l'utilité de l'information que contiennent ses données pour les utilisateurs. L'analyse est le principal outil permettant d'obtenir de l'information à partir des données.

    Les données d'une enquête peuvent être utilisées à des fins d'études descriptives ou analytiques. Les études descriptives se réfèrent à l'estimation de mesures agrégées d'une population cible, par exemple les bénéfices moyens des entreprises exploitées par le propriétaire en 2005 ou la proportion de diplômés du secondaire en 2007 qui ont poursuivi des études supérieures au cours des 12 mois suivants. Les études analytiques peuvent servir à expliquer le comportement de caractéristiques ou les relations entre elles; une étude des facteurs de risque d'obésité chez les enfants, par exemple, serait de nature analytique.

    Pour être efficace, l'analyste doit comprendre les questions pertinentes (tant celles qui sont actuelles que celles qui sont susceptibles d'émerger à l'avenir) et comment présenter les résultats au public. L'étude du contexte de l'analyse permet à l'analyste de choisir les sources de données et les méthodes statistiques appropriées. Toutes les conclusions présentées dans une analyse, y compris celles qui peuvent avoir une incidence sur les politiques publiques, doivent être appuyées par les données analysées.

    Lignes directrices

    Préparation initiale

    Avant de procéder à une étude analytique, il faut se pencher sur les questions suivantes :

    • Objectifs. Quels sont les objectifs de cette analyse? Quel est le sujet abordé? Quelles sont la ou les questions auxquelles il s'agit de trouver une réponse?

    • Justification. Pourquoi cette question est-elle intéressante? Comment ces réponses contribueront-elles à la somme des connaissances existantes? Quelle est la pertinence de cette étude?

    • Données. Quelles données sont utilisées? Quelle est la meilleure source de données pour cette analyse? Y a-t-il des limites?

    • Méthodes d'analyse. Quelles techniques statistiques sont appropriées? Permettront-elles d'atteindre les objectifs?

    • Public. Qui s'intéresse à cette question, et pourquoi?

    Données appropriées

    • S'assurer que les données conviennent à l'analyse à effectuer. À cette fin, il faut se pencher sur un grand nombre de détails tels que : la population visée par la source de données est-elle suffisamment reliée à la population cible de l'analyse? Les variables de la source ainsi que les définitions et les concepts sous-jacents sont-ils pertinents dans le cadre de l'étude? La nature longitudinale ou transversale de la source des données convient-elle à l'analyse? La taille de l'échantillon du domaine de l'étude est-elle suffisante pour dégager des résultats convenables? La qualité des données, telle qu'elle est exposée dans la documentation de l'enquête ou évaluée au moyen d'analyse, est-elle suffisante?

    • Si plus d'une source de données sert à l'analyse, déterminer si les sources sont cohérentes et comment les intégrer à l'analyse de la manière appropriée.

    Méthodes et outils appropriés

    • Choisir une approche analytique qui convient à la question examinée et aux données à analyser.

    • Pour analyser les données d'un échantillon probabiliste, il peut être approprié d'utiliser des méthodes analytiques qui font abstraction du plan d'enquête, si un nombre suffisant des conditions du modèle pour l'analyse sont satisfaites (voir Binder et Roberts, 2003). Toutefois, les méthodes qui intègrent les renseignements sur le plan d'échantillonnage sont généralement efficaces même lorsque certains aspects du modèle sont spécifiés incorrectement.

    • Déterminer si l'information sur le plan de sondage peut être intégrée à l'analyse et, le cas échéant, la façon de procéder – par exemple, au moyen de méthodes fondées sur le plan de sondage. Voir Binder et Roberts (2009) et Thompson (1997) pour un examen de diverses approches pour l'inférence sur des données tirées d'un échantillon probabiliste.

      • Voir Chambers et Skinner (2003), Korn et Graubard (1999), Lehtonen et Pahkinen (1995), Lohr (1999) et Skinner, Holt et Smith (1989) pour plusieurs exemples de méthodes analytiques fondées sur le plan de sondage.

      • Pour une analyse fondée sur le plan de sondage, consulter la documentation de l'enquête au sujet de l'approche recommandée pour l'estimation de la variance pour l'enquête. Si l'analyse porte sur les données de plus d'une enquête, déterminer si les différents échantillons ont été sélectionnés indépendamment ou non, et quel en serait l'effet sur l'approche appropriée de l'estimation de la variance.

      • Les fichiers de données pour les enquêtes probabilistes contiennent souvent plus d'une variable de pondération, particulièrement dans le cas d'une enquête longitudinale ou menée dans le but de recueillir des données transversales ainsi que longitudinales. Consulter la documentation de l'enquête et les spécialistes des enquêtes si le choix du meilleur poids à utiliser n'est pas évident pour une analyse fondée sur le plan de sondage dans une enquête particulière.

      • Lorsqu'il s'agit d'analyser des données provenant d'une enquête probabiliste, les renseignements disponibles sur le plan de sondage peuvent être insuffisants pour permettre d'adopter une approche complètement fondée sur le plan de sondage. Évaluer les solutions de rechange qui s'offrent.

    • Consulter des spécialistes du sujet à propos de la source des données et les méthodes statistiques si on n'est pas familier avec ces dernières.

    • Après avoir déterminé la méthode analytique appropriée aux données, examiner les choix de logiciels qui s'offrent pour l'appliquer. S'il s'agit d'analyser les données provenant d'un échantillon probabiliste au moyen de méthodes fondées sur le plan de sondage, utiliser un logiciel conçu particulièrement pour l'analyse de données d'enquête, puisque les progiciels analytiques standard qui peuvent produire des estimations ponctuelles pondérées ne calculent pas correctement les variances pour des estimations pondérées par les poids de sondage.

    • Il est souhaitable d'utiliser un logiciel commercial, s'il convient à la tâche, pour effectuer les analyses choisies, puisque ceux-ci ont généralement été testés davantage que les logiciels non commerciaux.

    • Déterminer s'il est nécessaire de reformater les données afin d'utiliser le logiciel choisi.

    • Inclure divers diagnostiques parmi les méthodes d'analyse utilisées si l'on ajuste des modèles aux données analysées.

    • Les sources de données varient beaucoup pour ce qui est des données manquantes. À une extrémité se trouvent les sources qui semblent complètes, dans lesquelles on a tenu compte de toute unité manquante au moyen d'une variable de pondération ayant une composante de non-réponse et toutes les valeurs manquantes des unités déclarantes ont été remplacées par des valeurs imputées. À l'autre extrémité se trouvent les sources de données dans lesquelles aucun traitement n'a été effectué sur les données manquantes. Ainsi, le travail de l'analyste pour traiter les données manquantes peut varier fortement. Il convient de souligner que les mesures à prendre dans le cas de données manquantes dans une analyse sont un sujet de recherche permanent.

      • Se reporter à la documentation au sujet de la source des données pour déterminer la mesure dans laquelle les données manquent, les types de données manquantes et le traitement des données manquantes qui a été effectué. Ces renseignements serviront de point de départ pour déterminer les autres travaux pouvant être requis.

      • Déterminer la façon de traiter la non-réponse totale ou partielle dans l'analyse, en prenant en compte l'importance des données manquantes et les types de données manquantes dans les sources de données utilisées.

      • Déterminer si les valeurs imputées doivent être incluses dans l'analyse et, le cas échéant, la façon dont il convient de les traiter. Si les valeurs imputées ne sont pas utilisées, il faut déterminer quelles autres méthodes peuvent être utilisées pour rendre compte correctement de l'effet de la non-réponse dans l'analyse.

      • Si l'analyse comprend la modélisation, il pourrait être approprié d'inclure certains aspects de la non-réponse dans le modèle analytique.

      • Faire toutes les mises en garde nécessaires sur la façon dont les méthodes utilisées pour traiter les données manquantes peuvent influer sur les résultats.

    Interprétation des résultats

    • Étant donné que la majorité des analyses sont fondées sur des études par observation plutôt que sur les résultats d'une expérience contrôlée, éviter de tirer des conclusions en ce qui concerne la causalité.

    • En étudiant les changements survenus au fil du temps, veiller à examiner les tendances à court terme en considérant également les tendances à moyenne et à long terme. Les tendances à court terme ne représentent souvent que de légères fluctuations d'une tendance plus importante à moyen ou à long terme.

    • Lorsque possible, éviter les points de référence arbitraires. Privilégier l'utilisation de points de référence comportant une plus grande signification tels que le dernier tournant pour les données économiques, les différences intergénérationnelles pour les statistiques démographiques et les changements législatifs pour les statistiques sociales.

    Présentation des résultats

    • Mettre l'accent dans l'article sur les variables et les sujets importants. Lorsque le sujet abordé est trop vaste, l'impact principal du message se trouve souvent atténué.

    • Structurer les idées de façon logique, en fonction de leur pertinence ou de leur importance. Recourir à des titres, à des sous-titres et à des encadrés afin de renforcer la structure de l'article.

    • Rédiger le texte en langage aussi simple que le sujet le permet. Selon le public cible, il est parfois souhaitable de perdre un peu en précision pour rendre le texte plus lisible.

    • Insérer des graphiques en complément du texte et des tableaux pour communiquer le message. Privilégier les titres qui véhiculent un message (p. ex. « Les revenus des femmes demeurent inférieurs à ceux des hommes »), plutôt que des titres de graphique classiques (p. ex. « Revenus selon l'âge et le sexe »). Toujours commenter l'information fournie dans les tableaux et les graphiques afin de permettre au lecteur de mieux la comprendre.

    • Lorsque des tableaux sont insérés, la présentation générale doit contribuer à la clarté des données qu'ils contiennent et prévenir les erreurs d'interprétation. Cela comprend l'espacement, la formulation, l'emplacement et l'apparence des titres, les titres de lignes et de colonnes et autre étiquetage.

    • Expliquer les pratiques ou les méthodes d'arrondissement. Dans la présentation de données arrondies, le nombre de chiffres significatifs ne doit pas être supérieur à celui qu'exige l'exactitude des données.

    • Satisfaire aux exigences en matière de confidentialité (p. ex. taille minimale des cellules) imposées par les enquêtes ou les sources administratives dont les données font l'objet de l'analyse.

    • Fournir des renseignements sur les sources de données utilisées ainsi que toutes lacunes dans les données ayant pu avoir une incidence sur l'analyse. Inclure dans le document soit une section sur les données, soit un renvoi indiquant au lecteur où obtenir les détails.

    • Fournir des renseignements sur les méthodes analytiques et les outils utilisés. Inclure soit une section portant sur les méthodes, soit un renvoi indiquant au lecteur où obtenir les détails.

    • Inclure des renseignements sur la qualité des résultats. Les erreurs types, les intervalles de confiance ou les coefficients de variation fournissent au lecteur des renseignements importants sur la qualité des données. Le choix de l'indicateur peut varier selon l'endroit où l'article est publié.

    • S'assurer que toutes les références sont exactes, uniformes et font l'objet de renvois dans le texte.

    • S'assurer qu'il n'y a pas d'erreurs dans l'article. Vérifier les détails, par exemple la cohérence des chiffres dans le texte, les tableaux et les graphiques, ainsi que l'exactitude des données externes et des calculs arithmétiques simples.

    • S'assurer que ce qui est annoncé dans l'introduction est effectivement exprimé dans le reste de l'article. S'assurer que les conclusions sont cohérentes avec les résultats de l'analyse.

    • Faire réviser l'article par d'autres personnes pour en vérifier la pertinence, l'exactitude et l'intelligibilité, peu importe où il doit être diffusé. Comme bonne pratique, demander à quelqu'un de la division qui a fourni les données d'examiner comment ces dernières ont été utilisées. Si l'article doit être diffusé à l'extérieur de Statistique Canada, il doit être soumis à un examen institutionnel ainsi que par les pairs, tel qu'il est précisé dans la Politique concernant l'évaluation des produits d'information (Statistique Canada, 2003).

    • Si l'article doit être diffusé dans une publication de Statistique Canada, s'assurer qu'il est conforme aux normes d'édition en vigueur de Statistique Canada. Ces normes sont applicables aux graphiques, aux tableaux et au style, entre autres.

    • Comme bonne pratique, envisager de présenter les résultats à des pairs avant de mettre la dernière main au texte. Il s'agit d'un autre type d'examen par les pairs qui peut aider à améliorer l'article. Toujours procéder à une répétition des exposés destinés à des publics externes.

    • Consulter les documents disponibles qui pourraient fournir d'autres conseils pour améliorer l'article, comme les Lignes directrices sur la rédaction d'articles d'analyse (Statistique Canada, 2008) et le Guide de rédaction (Statistique Canada, 2004)

    Indicateurs de qualité

    Principaux éléments de la qualité : pertinence, intelligibilité, exactitude, accessibilité

    Un produit analytique est pertinent s'il y a un public qui s'intéresse (ou qui s'intéressera) aux résultats de l'étude.

    Pour que le degré d'intelligibilité d'un article analytique soit élevé, le style de rédaction doit être adapté au public cible. En outre, l'article doit fournir suffisamment de détails pour permettre à une autre personne à laquelle l'accès aux données serait accordé de reproduire les résultats.

    Pour qu'un produit analytique soit exact, il faut utiliser les méthodes et les outils appropriés pour produire les résultats.

    Pour qu'un produit analytique soit accessible, il doit être mis à la disposition des personnes auxquelles les résultats de la recherche seraient utiles.

    Bibliographie

    Binder, D.A. et G.R. Roberts. 2003. « Design-based Methods for Estimating Model Parameters », Analysis of Survey Data, R.L. Chambers et C.J. Skinner, Chichester, Wiley, p. 29 à 48.

    Binder, D.A. et G. Roberts. 2009. « Design and Model Based Inference for Model Parameters », Sample Surveys: Inference and Analysis, D. Pfeffermann et C.R. Rao, Amsterdam, Elsevier.

    Chambers, R.L. et C.J. Skinner. 2003. Analysis of Survey Data, Chichester, Wiley.

    Korn, E.L. et B.I. Graubard. 1999. Analysis of Health Surveys, New York, Wiley.

    Lehtonen, R. et E.J. Pahkinen. 2004. Practical Methods for Design and Analysis of Complex Surveys. 2e edition, Chichester, Wiley.

    Lohr, S.L. 1999. Sampling: Design and Analysis, Duxbury Press.

    Skinner, C.K., D. Holt et T.M.F. Smith. 1989. Analysis of Complex Surveys, Chichester, Wiley.

    Thompson, M.E. 1997. Theory of Sample Surveys, Londres, Chapman and Hall.

    Statistique Canada. 2003. « Politique concernant l'évaluation des produits d'information », Manuel des politiques de Statistique Canada.

    Statistique Canada. 2004. Guide de rédaction de Statistique Canada.

    Statistique Canada. 2008. Lignes directrices sur la rédaction d'articles d'analyse (en ligne)

    Date de modification :