Section 7 : Qualité des données
Consulter la version la plus récente.
Information archivée dans le Web
L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.
Erreurs non dues à l’échantillonnage
Des erreurs qui ne sont pas liées à l'échantillonnage peuvent se produire à presque toutes les étapes des opérations d'enquête. Les intervieweurs peuvent avoir mal compris les instructions, les répondants peuvent se tromper en répondant aux questions, les réponses peuvent être saisies de façon incorrecte, et des erreurs peuvent être faites au moment du traitement et de la totalisation des données. Il s’agit d’exemples d'erreurs non dues à l'échantillonnage.
Lorsque le nombre d'observations est élevé, les erreurs aléatoires ont peu d'effet sur les estimations calculées à partir des résultats de l'enquête. Toutefois, les erreurs systématiques contribuent à biaiser les estimations de l'enquête. À chacune des étapes du cycle de collecte et de traitement des données, on applique des mesures d'assurance de la qualité pour contrôler la qualité des données. Ces mesures incluent le recours à des intervieweurs hautement qualifiés, une formation poussée des intervieweurs concernant les procédures de l'enquête et le questionnaire, l'observation des intervieweurs en vue de cerner les problèmes liés à la conception du questionnaire ou à une mauvaise compréhension des instructions, des contrôles visant à réduire au minimum les erreurs de saisie des données, ainsi que des vérifications du codage et des contrôles ayant pour but d'attester de la logique du traitement.
Erreurs d’échantillonnage
L'Enquête sur la population active recueille des renseignements auprès d'un échantillon de ménages. On pourrait obtenir des estimations différentes d'un recensement complet des ménages réalisé dans un environnement identique en utilisant les mêmes questionnaires, intervieweurs, superviseurs, méthodes de traitement, etc. L'écart entre les estimations découlant de l'échantillon et celles que donnerait un dénombrement exhaustif réalisé dans des conditions comparables est appelé erreur d'échantillonnage de l'estimation, ou variabilité d'échantillonnage. Les produits de l'Enquête sur la population active sont assortis de mesures approximatives de l'erreur d'échantillonnage; nous recommandons aux utilisateurs d'en tenir compte au moment d'analyser les données.
Les utilisateurs peuvent recourir à trois méthodes reliées pour interpréter et évaluer la précision de l'estimation : l'erreur-type et deux autres méthodes aussi fondées sur l'erreur-type, soit celle des intervalles de confiance et celle des coefficients de variation.
Interprétation à l'aide de l'erreur-type
L'erreur d'échantillonnage, ou erreur-type, est une mesure permettant de quantifier l'écart des estimations d’échantillonnage répétées. Le prélèvement d'un grand nombre d'échantillons à partir d'une population donnée, selon le même plan d'échantillonnage, produirait une estimation située à une erreur-type de la valeur censitaire dans environ 68 % des échantillons et à deux erreurs-type de la valeur censitaire dans environ 95 % des échantillons. Bien que le concept de l’erreur d’échantillonnage soit fondé sur l’idée de la sélection de plusieurs échantillons, en pratique, un seul échantillon est tiré et l’erreur-type est estimée en fonction de l’information recueillie des unités de cet échantillon.
Les mêmes principes s’appliquent quand on examine des estimations de variation, ou la variation entre deux estimations par exemple, des changements d’échelon d'un mois à l'autre. Approximativement dans les deux tiers (68 %) des cas, une variation supérieure à l'erreur d'échantillonnage indique une variation réelle. Plus la variation est importante relativement à l'erreur-type, plus la probabilité qu'elle indique une variation réelle est grande plutôt qu'une variation attribuable à la variabilité d'échantillonnage. À un niveau de confiance de 95 %, la variation de l'estimation doit être supérieure au double de l'erreur d'échantillonnage pour indiquer une variation réelle.
Supposons pour illustrer que, entre deux mois, l'estimation publiée de l'emploi total augmente de 40 000 et que l'erreur-type associée à l'estimation de la variation se chiffre à 28 800. Puisque la hausse est plus grande que l'erreur-type, il y a au moins deux chances sur trois (68 %) que l'augmentation de l'emploi de 40 000 représente une hausse réelle. Pour être assuré à 95 % de la véracité de l'affirmation, il faut doubler la valeur de l'erreur-type. Puisque la hausse de l'emploi de 40 000 est plus petite que le double de l'erreur-type (57 600), il est impossible d'affirmer à un niveau de confiance de 95 % qu'il y a eu hausse de l'emploi.
Les variations des estimations qui sont inférieures à l'erreur d'échantillonnage sont moins susceptibles d'indiquer une variation réelle et plus susceptibles de refléter la variabilité d'échantillonnage. Bien que ces observations s'appliquent aux variations mensuelles, une série de variations consécutives dans la même direction est plus digne de confiance, même si certaines des variations mensuelles sont inférieures à l'erreur d'échantillonnage.
Interprétation à l'aide des intervalles de confiance
On peut aussi examiner la variabilité inhérente aux estimations tirées d'enquêtes-échantillons sous l'angle des intervalles de confiance. Supposons pour illustrer le calcul d'un intervalle de confiance que, au cours d'un mois donné, l'estimation publiée de l'emploi total augmente de 16 000 pour atteindre 17 800 000. L'erreur-type associée à l'estimation de la variation se chiffre à 28 800. En utilisant l'erreur-type pour construire les intervalles de confiance, on peut dire que :
- Dans environ deux cas sur trois (68 %), la valeur réelle de la variation d'un mois à l'autre se situera dans la fourchette allant de -12 800 à +44 800 (c'est-à-dire 16 000 + ou – une erreur-type).
- Dans environ neuf cas sur dix (90 %), la valeur réelle de la variation d'un mois à l'autre se situera dans la fourchette allant de -30 100 à +62 100 (c'est-à-dire 16 000 + ou – 1,6 fois l'erreur-type).
- Dans environ dix-neuf cas sur vingt (95 %), la valeur réelle de la variation d'un mois à l'autre se situera dans la fourchette allant de -41 600 à +73 600 (16 000 + ou – deux fois l'erreur-type).
Interprétation à l'aide du coefficient de variation
On peut aussi exprimer la variabilité d'échantillonnage en fonction de l'estimation elle-même. Le coefficient de variation (CV) est une mesure de l'erreur d'échantillonnage définie en pourcentage de l'estimation. En fait, il s'agit d'une erreur-type relative. Le CV donne un aperçu du degré d'incertitude associé aux estimations. Par exemple, avec un CV de 7 %, on peut dire que dans 68 % des échantillons, la valeur censitaire se trouvera à plus ou moins 7 % (la valeur d’un CV) de l'estimation alors que dans 95 % des échantillons, elle se situera à plus ou moins 14 % (ou le double du CV) de l'estimation.
Il est préférable d'obtenir des CV peu élevés puisque de tels CV indiquent que la variabilité d'échantillonnage est faible par rapport à l'estimation. Le CV dépend de la taille de l'échantillon à partir duquel l'estimation est établie, de la distribution de la caractéristique mesurée dans l'échantillon, et de l'utilisation d'information auxiliaire dans la procédure d'estimation. La taille de l’estimation est importante parce que le CV représente l'erreur d'échantillonnage exprimée en pourcentage de l'estimation; plus la taille de l'estimation est faible, plus le CV est élevé (toutes choses étant égales par ailleurs). Par exemple, lorsque le taux de chômage est élevé, le CV peut être faible. Si le taux de chômage baisse en raison de l'amélioration de la situation économique, le CV correspondant augmentera. Normalement, dans le cas d'estimations similaires, l'estimation fondée sur l'échantillon le plus grand produira le CV le plus bas, car l'erreur d'échantillonnage est plus petite.
Par ailleurs, les estimations se rapportant à des caractéristiques plus groupées donnent lieu à un CV plus élevé. Par exemple, les personnes employées dans le secteur de la foresterie, de la pêche, de l'exploitation minière et de l'exploitation pétrolière et gazière au Canada sont plus regroupées sur le plan géographique que les femmes de 55 ans et plus employées au Québec. La variabilité d'échantillonnage correspondant à ce dernier groupe sera plus faible, même si les estimations sont à peu près de la même taille.
Enfin, les estimations se rapportant à l'âge et au sexe sont généralement plus fiables que d'autres estimations similaires parce que, dans le cas des estimations de l'EPA, l'échantillon est calibré en fonction des projections postcensitaires de la population selon diverses catégories d'âge et de sexe. Par exemple, les personnes employées à temps partiel en Saskatchewan seront associées à une variabilité d'échantillonnage plus forte que les hommes âgés de 25 à 54 ans employés au Nouveau-Brunswick, même si les estimations sont à peu près de la même taille.
Variabilité des estimations mensuelles pour le Canada et les provinces
Pour connaître la mesure approximative du CV d'une estimation d’un total mensuel, veuillez consulter le tableau 7.1, lequel présente la taille de l'estimation en fonction de la région géographique et du CV. Les lignes correspondent à la région géographique à laquelle l'estimation est associée et les colonnes, au degré de précision exprimé en CV, en fonction de la taille de l'estimation. Pour déterminer le CV d'une estimation de taille X dans la région A, suivez la ligne de la région A jusqu'à la première estimation la plus proche de X sans la dépasser. Le titre de la colonne indiquera le CV approximatif. Par exemple, pour connaître l'erreur d'échantillonnage d'une estimation de 35 100 mille chômeurs à Terre-Neuve-et-Labrador en janvier 2015, on constate que l'estimation inférieure la plus proche, de 26 900, donne un CV de 5 %.
Le tableau 7.1 donne une idée approximative de la variabilité d'échantillonnage. Cette dernière est modélisée pour que le CV réel de l'estimation soit inférieur ou égal au CV du tableau dans environ 75 % des cas. Néanmoins, dans 25 % des cas, le CV réel de l'estimation sera plus élevé que celui indiqué par le tableau.
Les valeurs de CV qui apparaissent au tableau 7.1 sont calculées à partir d’un modèle établi à partir des données de l'échantillon de l'EPA pour la période de 48 mois allant de janvier 2011 à décembre 2014 inclusivement. Il faut bien se rappeler que ces valeurs ne sont que des approximations.
Le tableau 7.1 peut être utilisé avec des estimations désaisonnalisées ou des estimations non désaisonnalisées. Des études ont démontré que les erreurs-types de l'EPA, dans le cas des données désaisonnalisées, se rapprochent de celles des données non corrigées, particulièrement quand les estimations sont pour de plus grandes populations et de plus grands domaines.
Variabilité des estimations annuelles pour le Canada et les provinces
Pour connaître la mesure approximative du CV d'une estimation d'une moyenne annuelle, veuillez consulter le tableau 7.2, lequel présente la taille de l'estimation en fonction de la région géographique et du CV. Les lignes correspondent à la région géographique à laquelle l'estimation est associée et les colonnes, au degré de précision exprimé en CV, en fonction de l'estimation. Pour déterminer le CV d'une estimation de taille X dans la région A, suivez la ligne de la région A jusqu'à la première estimation la plus proche de X sans la dépasser. Le titre de la colonne indiquera le CV approximatif. Par exemple, pour connaître l'erreur d'échantillonnage d'une estimation annuelle de 32 300 chômeurs à Terre-Neuve-et-Labrador en 2014, on constate que l'estimation inférieure la plus proche, de 29 200, donne un CV de 2,5 %.
Le tableau 7.2 donne une idée approximative de la variabilité d'échantillonnage. Cette dernière est modélisée pour que le CV réel de l'estimation soit inférieur ou égal au CV du tableau dans environ 75 % des cas. Néanmoins, dans 25 % des cas, le CV réel de l'estimation sera plus élevé que celui indiqué par le tableau.
Les valeurs de CV qui apparaissent au tableau 7.2 sont calculées à partir d'un modèle établi à partir des données de l'échantillon de l'EPA pour la période de 5 ans allant de 2010 à 2014. Il faut bien se rappeler que ces valeurs ne sont que des approximations.
Tableaux de variabilité de l’échantillonnage pour les territoires
Les valeurs de CV pour les moyennes mobiles de trois mois qui apparaissent au tableau 7.3 pour le Yukon, les territoires du Nord-Ouest et le Nunavut sont calculées à l’aide de modèles établis à partir des données de l'échantillon de l'EPA pour la période de 48 mois allant de janvier 2011 à décembre 2014 inclusivement. Les valeurs de CV pour les moyennes annuelles dans le même tableau sont calculées à l’aide de modèles établis à partir des données de l'échantillon de l'EPA pour la période de 5 ans allant de 2010 à 2014.
Pour des mesures de la variabilité plus précises, veuillez communiquez avec le Service de renseignements statistiques de Statistique Canada (sans frais au 1-800-263-1136; international au 1-514-283-8300; infostats@statcan.gc.ca).
Variabilité des taux
Pour les estimations exprimées sous forme de taux ou de pourcentages, la variabilité d'échantillonnage dépend de la variabilité du numérateur et du dénominateur du ratio. Les divers taux donnés sont traités différemment, car certains dénominateurs sont des valeurs étalonnées pour lesquelles il n'y a pas de variabilité d'échantillonnage.
Taux de chômage
Le taux de chômage est défini comme le ratio de X, soit du nombre de chômeurs dans un groupe, à Y, soit le nombre total de personnes dans la population active pour le même groupe. Le groupe peut désigner une province ou une RMR et (ou) un groupe d'âge-sexe. Par exemple, en janvier 2015, on dénombrait plus de 35 000 chômeurs à Terre-Neuve-et-Labrador, tandis que la population active de la province comptait 260 300 personnes, ce qui donnait un taux de chômage de 13,5 %.
Le CV du taux de chômage peut être estimé au moyen de la formule suivante :
[CV(X/Y)]2 = [CV(X)] 2 + [CV(Y)] 2– 2p[CV(X)] [CV(Y)]
d’où CV(X) correspond au CV du nombre total de chômeurs d'un sous-groupe géographique ou démographique particulier et CV(Y), au CV du nombre total de personnes faisant partie de la population active dans le même sous-groupe. Le coefficient de corrélation, désigné par p, rend compte de l'ampleur de l'association linéaire entre X et Y (respectivement, le nombre de chômeurs et le nombre de personnes faisant partie de la population active dans le même sous-groupe). La valeur de p se situe entre -1 et 1. Par exemple, une forte association linéaire positive indiquerait que le nombre de chômeurs augmente généralement parallèlement au nombre total de personnes faisant partie de la population active. À noter que nous pouvons nous attendre à un CV plus important pour le taux de chômage lorsque p est négatif, étant donné que dans ce cas, le troisième terme du côté droit de l'équation ci-dessus devient positif.
Lorsque p n'est pas disponible, l'approche la plus conservatrice consiste à utiliser p = -1, ce qui mène à la formule simplifiée suivante :
CV(X/Y) = CV(X) + CV(Y)
À noter que cela entraînera probablement une surestimation de CV(X/Y).
Dans l'exemple qui précède, les CV des estimations mensuelles du nombre de chômeurs et du nombre total de personnes faisant partie de la population active à Terre-Neuve-et-Labrador sont respectivement de 5,0 % et 1,0 % à partir du tableau 7.1. Une approximation du CV du taux de chômage de 13,5 %, à partir de la formule qui précède, serait la suivante :
5,0 % + 1,0 % = 6,0 %
À noter que, dans cette estimation en particulier, l’approximation susmentionnée n’est que légèrement supérieure au CV de 5,9 %, qui a été estimé au moyen de méthodes d’estimation de la variance complexes et qui exigent beaucoup de ressources informatiques.
Taux d’activité et taux d’emploi
Le taux d'activité représente le nombre de personnes dans la population active exprimé en pourcentage de la taille de la population totale. Le taux d'emploi est le nombre total de personnes occupées divisé par la taille de la population totale. Le numérateur et le dénominateur de ces deux taux se rapportent au même groupe géographique et démographique.
Les estimations de la population de l'EPA à l'échelle du Canada, des provinces, des RMR, et de certains groupes d'âge-sexe ne sont pas sujettes à la variabilité d'échantillonnage, car elles sont étalonnées selon des sources indépendantes. Par conséquent, le CV correspondant du taux d'activité et du taux d'emploi est équivalent au CV du numérateur.
On appelle « domaines » les sous-groupes se trouvant à l'intérieur du Canada, des provinces et des groupes d'âge-sexe. Par exemple, les personnes occupées dans le secteur de l'agriculture au Manitoba forment un domaine. Pour déterminer le CV des taux se rapportant à un domaine, on doit tenir compte de la variabilité du numérateur et du dénominateur, car le dénominateur n'est plus un total contrôlé. Il est donc sujet à la variabilité d'échantillonnage. On peut calculer le CV associé au taux d'activité et au taux d'emploi dans un domaine de la même façon que celle montrée précédemment pour le taux de chômage. Les totaux figurant au numérateur et au dénominateur d'un taux en particulier devraient se rapporter au même domaine ou au même sous-groupe.
Variabilité des estimations d’un changement
La différence entre des estimations provenant de deux périodes différentes donne une estimation du changement, laquelle est sujette aussi à la variabilité d'échantillonnage. L'estimation d'un changement entre deux années ou entre deux mois repose sur deux échantillons qui peuvent avoir des ménages en commun. Ainsi, le CV du changement dépend à la fois du CV des estimations observées à chacune des deux périodes et de la corrélation p entre les deux périodes.
La valeur de p va de -1 à 1, 1 correspondant à une association linéaire positive parfaite. On peut généralement utiliser le chevauchement des échantillons pour produire une approximation du coefficient de corrélation de la façon suivante :
- Pour les provinces : utiliser p = 5/6 pour les variations d'un mois à l'autre, et p = 0 pour les variations d'une année à l'autre.
- Des études empiriques à Statistique Canada ont montré que, pour les provinces, une valeur de p égale à 5/6 représente une bonne approximation des estimations de l'emploi, mais que pour les estimations du chômage, une valeur p de 0,45 produirait une meilleure approximation des variations d'un mois à l'autre.
Bien que le CV et l’erreur-type soient des mesures reliées, le CV sert à évaluer la variabilité des estimations (en termes de niveaux), et l’erreur-type sert à évaluer la variabilité de la différence entre ces estimations. L’erreur-type de la variation entre estimations peut être calculée au moyen de la formule suivante :
d’où Y1 et Y2 correspondent à l'estimation respective des deux périodes. La valeur de p correspond au coefficient de corrélation entre Y1 et Y2.
Quand on multiplie les CV obtenus à partir de cette formule par l’estimation de la différence (y2- y1), on obtient l’erreur-type (les CV devraient être exprimés en décimales pour ce calcul).
Avec l’erreur-type, on peut voir les variations (différences entre estimations) qui sont statistiquement significatives et celles qui ne le sont pas. Si l’erreur-type de y2- y1 est plus élevée en ampleur que la valeur de y2- y1, celle-ci n’est pas statistiquement significative.
Note : Pour la différence (ou la variation) entre estimations (y2- y1), les CV peuvent être très élevés et parfois mêmes négatifs (ce qui n’est pas surprenant quand la valeur de y2- y1 est négative). La qualité d’un CV négatif est la même qu’un CV avec une valeur égale, mais positive.
Lorsque l'on compare les moyennes annuelles de deux années, les CV des estimations annuelles (tableau 7.2) devraient être utilisés. Pour un changement entre deux mois, les estimations désaisonnalisées devraient être utilisées, conjointement avec les CV des estimations mensuelles calculés à partir du tableau 7.1. Veuillez prendre note que la formule ci-dessus produit une estimation approximative de la variabilité de l'échantillonnage associée à l'estimation d'un changement.
Directives concernant la fiabilité des données
Les enquêtes-ménages de Statistique Canada se fondent généralement sur les directives et les catégories de fiabilité suivantes pour interpréter les valeurs de CV en ce qui a trait à l'exactitude des données et la diffusion de l'information statistique.
Catégorie 1 - Si le CV est ≤ 16,5 % - aucune restriction de diffusion : les données sont suffisamment exactes, si bien qu'un avertissement particulier aux utilisateurs ou d'autres restrictions ne sont pas nécessaires.
Catégorie 2 - Si le CV est > 16,5 % et ≤ 33,3 % - diffusion avec mise en garde : les données sont potentiellement utiles pour certaines fins, mais devraient être accompagnées d'un avertissement aux utilisateurs concernant leur exactitude.
Catégorie 3 - Si le CV est > 33,3 % - diffusion déconseillée : les données contiennent un niveau d'erreur élevé au point qu'elles ne devraient pas être diffusées dans la plupart des circonstances afin d'éviter de tromper les utilisateurs. Si les utilisateurs insistent pour inclure les données de la Catégorie 3 dans un produit non normalisé, même après avoir été informés de leur exactitude, les données devraient être accompagnées d'un avis de non-responsabilité. L'utilisateur devrait reconnaître les mises en garde reçues et s'engager à ne pas diffuser, présenter ni déclarer les données, directement ou indirectement, sans cet avis de non-responsabilité.
Critères de confidentialité de diffusion
La loi interdit à Statistique Canada de rendre publique toutes données susceptibles de révéler de l'information obtenue en vertu de la Loi sur la statistique et se rapportant à toute personne, entreprise ou organisation reconnaissables sans que cette personne, entreprise ou organisation le sachent ou y consentent par écrit. Diverses règles de confidentialité s'appliquent à toutes les données diffusées ou publiées afin d'empêcher la publication ou la divulgation de toute information jugée confidentielle. S’il y a lieu, des données sont supprimées pour empêcher la divulgation directe ou par recoupement de données reconnaissables.
L'EPA permet de produire une vaste gamme de résultats donnant des estimations pour diverses caractéristiques de la population active. La plupart de ces résultats sont des estimations présentées sous la forme de tableaux de tri croisé. Les estimations sont arrondies à la centaine la plus proche, et un ensemble de règles de suppression est appliqué pour qu'aucune estimation inférieure à un seuil minimum ne soit diffusée.
Les estimations de l'EPA inférieures aux seuils présentés au tableau 7.4 sont supprimées.
- Date de modification :