Publications

    Statistique Canada : Lignes directrices concernant la qualité

    Contrôle de la divulgation

    Warning Consulter la version la plus récente.

    Information archivée dans le Web

    L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

    Portée et objet
    Principes
    Lignes directrices
    Indicateurs de qualité
    Bibliographie

    Portée et objet

    Le contrôle de la divulgation désigne les mesures visant à protéger les données dans le respect des exigences en matière de confidentialité. L'objectif consiste à s'assurer que les dispositions régissant la protection de la confidentialité sont respectées tout en préservant le plus possible l'utilité des données produites. Le programme vigilant de contrôle de la divulgation et de protection de la confidentialité de Statistique Canada contribue grandement à la qualité des données; en effet, les taux de réponse élevés dans les enquêtes du Bureau et la confiance que le public place dans l'organisme en sont tributaires dans une large mesure.

    Principes

    Les principes qui sous-tendent les activités de contrôle de la divulgation sont presque exclusivement régis par les dispositions de la Loi sur la statistique (1970, S.R.C. 1985, c. S19), plus précisément le paragraphe 17(1) (b) :

    aucune personne qui a été assermentée en vertu de l'article 6 ne peut révéler ni sciemment faire révéler, par quelque moyen que ce soit, des renseignements obtenus en vertu de la présente loi de telle manière qu'il soit possible, grâce à ces révélations, de rattacher à un particulier, à une entreprise ou à une organisation identifiables les détails obtenus dans un relevé qui les concerne exclusivement.

    Les dispositions de la Loi sur la statistique en matière de confidentialité sont extrêmement rigoureuses. Par conséquent, leur application dans des cas bien précis représente une tâche ardue quoiqu'extrêmement importante. L'objectif premier consiste à s'assurer qu'aucun résultat personnel identifiable ne puisse être inféré dans une fourchette restreinte. De plus, il est nécessaire de protéger l'information, peu importe si le sujet est susceptible d'être considéré confidentiel par les répondants. Enfin, la façon dont le public perçoit la vigilance avec laquelle nous protégeons la confidentialité des statistiques est à tout le moins aussi importante que les mesures réelles que nous prenons pour empêcher la divulgation des données des répondants.

    Lignes directrices

    Généralités

    • Distinguer le type de données à traiter; chaque type ayant des méthodes de contrôle de divulgation qui lui sont propres. Les données tabulaires sont diffusées sous forme de tableaux statistiques comportant souvent de nombreuses dimensions. Elles se divisent davantage en tableaux de fréquences et en tableaux de données quantitatives. Les microdonnées sont des enregistrements anonymisés établis pour les particuliers. Enfin, certaines données de sorties analytiques peuvent également nécessiter un contrôle de la divulgation, surtout si elles ressemblent à des données tabulaires (p.ex., des statistiques ou des histogrammes) ou à des microdonnées (p.ex., des nuages de points ou les valeurs résiduelles d'une régression).

    • Consulter les Lignes directrices sur le contrôle de la divulgation (version longue) pour déterminer les méthodes de contrôle les plus appropriées pour vos types de données. Les méthodes d'accès restreint comprennent l'accès aux données à partir de centres de données identifiés, d'avoir un accès à distance sécurisé ou d'avoir un accès limité sous contrats de licence. Les méthodes de diffusion restreinte protègent les données elles-mêmes par réduction ou perturbation de l'information.

    • Ne dévoilez pas les paramètres et les règles utilisées pour contrôler la divulgation. La connaissance de ces paramètres peut aider à mieux préciser la valeur de certains répondants.

    • Se rappeler en tout temps que l'apparence d'une divulgation peut parfois être aussi néfaste pour l'organisme qu'un cas réel de divulgation.

    Divulgation résiduelle

    • Tenir compte du risque de divulgation résiduelle. Elle a lieu lorsqu'il est possible d'estimer des données confidentielles par un recoupement de l'information diffusée avec d'autres renseignements accessibles, y compris les diffusions antérieures de l'organisme.

    • Dans les tableaux, on doit parfois trouver des cellules complémentaires à supprimer afin de protéger les cellules confidentielles. Les cellules à fréquence zéro peuvent aussi poser un problème de divulgation d'attributs parce qu'elles éliminent certaines possibilités (par exemple, une fréquence zéro pour la catégorie « possède un emploi »). Souvent, il ne suffit pas de supprimer uniquement les cellules confidentielles lorsque la distribution marginale est également diffusée, car il est parfois possible de calculer la valeur exacte des cellules supprimées en résolvant un système d'équations linéaires. Même si cela n'est pas possible, on peut calculer une fourchette de valeurs correspondant à la cellule supprimée en utilisant des méthodes de programmation linéaire, et cette fourchette peut être jugée trop restreinte pour protéger suffisamment la valeur supprimée.

    • Vérifier si les catégories et hiérarchies utilisées par les tableaux se chevauchent. Par exemple, des régions publiables peuvent être soustraites de plus grandes régions et entraîner la publication d'une région dont les valeurs seraient confidentielles.

    • La divulgation résiduelle a aussi lieu lorsqu'il est possible d'estimer des données confidentielles par un recoupement de l'information diffusée avec d'autres renseignements accessibles, y compris les diffusions antérieures de l'organisme. Il est difficile de formuler des règles afin d'empêcher les divulgations par recoupement lorsque plusieurs produits sont diffusés à partir du même ensemble de données de base, surtout dans les cas de demandes spéciales ou de sorties des centres de données; il faut parfois recourir à l'intervention manuelle. Si des données peuvent être diffusées à partir de plusieurs centres il est nécessaire de coordonner la diffusion ou au minimum d'établir des règles communes pour la diffusion.

    Microdonnées

    • Considérer des méthodes de contrôle de divulgation qui sont appropriées à la diffusion de microdonnées. Les méthodes de réduction des données englobent l'échantillonnage, l'élargissement des catégories de variables (dans le cas de certains groupes identifiables, assurez-vous que la population est assez grande), le regroupement des valeurs extrêmes supérieures et inférieures, la suppression de certaines variables provenant de certains ou de tous les répondants, la suppression de certains répondants du fichier. Les méthodes de modification des données comprennent l'ajout de bruit aléatoire aux microdonnées, la permutation de données, le remplacement de valeurs dans des groupes restreints par des valeurs moyennes ou la suppression de renseignements fournis par certains répondants et leur remplacement par des valeurs imputées.

    • Dans les enquêtes longitudinales, déterminer une stratégie convenable avant que l'enquête soit terminée. Les stratégies de diffusion de fichiers de microdonnées provenant d'enquêtes longitudinales posent un problème encore plus épineux. La stratégie doit être élaborée avant que tous les résultats de l'enquête soient disponibles, soit avant la collecte des données pour les prochaines éditions de l'enquête. Comme un des objectifs de la stratégie consiste à définir les variables qui seront diffusées et leur catégorisation, certaines hypothèses doivent être formulées relativement à l'évolution de ces variables dans le temps, notamment à savoir si certaines variables sont susceptibles de devenir des variables clés.

    • Dans les cas d'enquêtes de suivi ou de deuxième phase, si l'enquête principale a diffusé ou prévoit diffuser un fichier de microdonnées s'assurer que le fichier de microdonnées ne présente pas de risques additionnels de par le fait qu'on pourrait apparier les microdonnées des deux enquêtes pour créer un fichier composite. Évaluer le taux de succès d'un appariement des deux fichiers et, s'il est important, le risque découlant d'un tel appariement (par exemple, quelles sont les conséquences de l'ajout de variables identificatrices d'une enquête à l'autre).

    • En conformité avec la Politique sur la diffusion des microdonnées (Statistique Canada, 1987) s'assurer que le Comité de la diffusion des microdonnées examine tout fichier de microdonnées à grande diffusion.

    Divulgation de certains types de renseignements

    • Consulter le paragraphe 17(2) de la Loi sur la statistique qui prévoit que certains types de renseignements confidentiels peuvent être diffusés à la discrétion du statisticien en chef et en vertu d'une ordonnance. La diffusion de listes d'entreprises avec adresse et classification industrielle ou la communication de renseignements sur un répondant qui a donné son consentement écrit au préalable (une renonciation) constituent les formes les plus courantes de ce type de divulgation. La diffusion d'information qui s'appuie sur le pouvoir discrétionnaire du statisticien en chef est régie par la Politique relative à la révélation discrétionnaire (Statistique Canada, 2004) et, dans certains cas, par les Lignes directrices relatives à la diffusion de microdonnées non filtrées en vertu d'accords de partage des données prévus par l'article 12 ou en vertu de dispositions de diffusion discrétionnaire des renseignements.

    Ressources

    • Consulter les ressources disponibles à Statistique Canada en matière de confidentialité :

      • La Division des services d'accès et de contrôle des données offre des avis et conseils à propos des politiques liées à la confidentialité de l'information recueillie par Statistique Canada;

      • Le Comité de la confidentialité et des mesures législatives et ses sous-comités, le Comité d'examen en matière de divulgation et le Comité de la diffusion des microdonnées offrent des stratégies et des pratiques de contrôle de la divulgation;

      • Le Centre de ressources sur le contrôle de la divulgation au sein de la Division des méthodes d'enquêtes auprès des entreprises offre l'aide technique ainsi que l'équipe de soutien des systèmes généralisés pour le logiciel Confid. 169

    • Utiliser un logiciel généralisé de contrôle de la divulgation bien établi, tel Confid, plutôt que des systèmes personnalisés. Un tel système réduit le risque d'erreur de mise en œuvre et d'exécution, le risque de divulgation et le risque de « surprotéger » les données, tout en permettant une réduction des coûts et du temps que nécessite la mise au point.

    Indicateurs de qualité

    Principaux éléments de la qualité : exactitude, accessibilité

    En général, les activités de contrôle de la divulgation ont une incidence réductrice sur la qualité des données en cela qu'elles peuvent se traduire par la suppression ou la modification d'un niveau de détail. Le contrôle de la divulgation peut aussi se traduire à limiter l'accès aux données à des groupes de la population tels que les chercheurs. Certaines méthodes telles que la perturbation des données peuvent influer sur l'exactitude de l'information diffusée. Un biais peut provenir du fait d'arrondir les valeurs ou d'ajouter un bruit aux données.

    Il n'est pas réalisable d'offrir une garantie absolue de la confidentialité. Le contrôle de la divulgation est assez complexe et les règles utilisées pour mesurer l'ampleur de la protection offerte sont modérément subjectives. Bien qu'il n'y ait pas de consensus sur les mesures sur la qualité, on retrouve principalement les fonctions de risque et les fonctions de perte.

    La fonction de perte mesure l'ampleur de la différence entre les données originales et les données après l'accomplissement de méthodes de contrôle de la divulgation. Pour les données modifiées (p. ex. la perturbation), on mesure la différence relative entre les données avant et après ajustement pour la confidentialité. Dans le cas de données supprimées, on utilise souvent le taux de suppression qui indique la quantité de valeurs qui ont été supprimées par rapport à celles diffusées. Ces indices doivent être produits à différents niveaux de détail et pour divers groupes de répondants (p. ex. pour identifier les groupes industriels les plus touchés par la suppression). 

    La fonction de risque indique dans une certaine mesure le danger d'identifier un répondant ou une valeur qui lui est rattachée. Généralement pour des données supprimées dans les tableaux, il faut identifier le nombre de cellules supprimées dont la protection est inadéquate c.-à-d. qu'il est possible d'obtenir une approximation trop précise de la valeur supprimée en utilisant l'information provenant des autres cellules. Dans le cas des microdonnées, la plupart des méthodes tendent à mesurer le risque de divulgation en utilisant la méthode de ré-identification pour un ensemble de variables caractéristiques (appelées variables clés) ou en mesurant les tentatives d'appariement avec un fichier externe. Globalement la technique consiste à identifier des combinaisons uniques de la population qui se retrouvent dans l'ensemble de données diffusées.

    Bibliographie

    Brackstone, G. et P. White. 2002. « Data Stewardship at Statistics Canada », Proceedings of the Social Statistics Section, American Statistical Association, p. 284 à 293.

    Doyle, P., J. Lane, J. Theeuwes J. et L. Zayatz. 2001. Confidentiality, Disclosure and Data Access: Theory and Practical Applications for Statistical Agencies, North-Holland.

    Elliot, M., A. Hundepool, E. Schulte Nordholt, J.L. Tambay et T. Wende. 2005. Glossary on Statistical Disclosure Control (en ligne), http://neon.vb.cbs.nl/casc/glossary. htm.

    Federal Committee on Statistical Methodology. 2005. Report on Statistical Disclosure Limitation Methodology. Statistical Policy Working Paper 22. Second version, Office of Management and Budget, Washington, D.C.

    Hundepool, A. et coll. 2008a. τ-ARGUS version 3.3 User's Manual, Voorburg, Statistics Netherlands.

    Hundepool, A. et coll. 2008b. μ-ARGUS version 4.2 User's Manual, Voorburg, Statistics Netherlands.

    Hundepool, A. et coll. 2009. Handbook on Statistical Disclosure Control, Version 1.1., EssNet SDC.

    Statistique Canada. 1970. Loi sur la Statistique.

    Statistique Canada. 1987. « Politique sur la diffusion des microdonnées », Manuel des politiques de Statistique Canada.

    Statistique Canada. 2004. « Politique relative à la révélation discrétionnaire », Manuel des politiques de Statistique Canada.

    UN Economic Commission for Europe. 2007. Managing Statistical Confidentiality and Microdata AccessPrinciples and Guidelines of Good Practice, Genève, Nations Unies.

    Willenborg, L. et T. de Waal. 1996. « Statistical Disclosure Control in Practice », Lecture Notes in Statistics, Springer Verlag.

    Willenborg, L. et T. de Waal. 2000. « Elements of Statistical Disclosure Control », Lecture Notes in Statistics, Springer Verlag.

    Date de modification :