Méthodologie de l'Enquête sur la population active du Canada
Chapitre 8 Qualité des données

8.0  Introduction

L’évaluation de la qualité des données désigne le processus d’évaluation du produit fini de l’enquête par rapport aux objectifs initiaux de l’enquête. Plus précisément, les évaluations se font en termes d’exactitude et de fiabilité des données. Ce genre d’information permet aux utilisateurs de procéder à une interprétation et à une utilisation mieux informées des résultats de l’enquête. Les utilisateurs doivent avoir accès à de l’information leur permettant d’évaluer dans quelle mesure les limites des données restreignent l’utilisation des données. Les évaluations de la qualité des données sont aussi à l’avantage de l’organisme statistique. Dans la mesure où les limites des données peuvent être détectées à des étapes particulières du processus de l’enquête, ces évaluations peuvent servir à améliorer la qualité des occurrences ultérieures si l’enquête est réitérée ou s’il y a d’autres enquêtes semblables.

L’exactitude de l’information statistique est la mesure dans laquelle l’information décrit correctement le phénomène qu’elle devait évaluer. Généralement, elle est caractérisée par l’erreur dans les estimations statistiques et est décomposée en composantes de biais (erreur systématique) et de variance (erreur aléatoire). L’exactitude peut également être décrite en fonction des sources d’erreur majeures qui peuvent mener à l’inexactitude (p. ex., erreurs d’échantillonnage et erreurs non dues à l’échantillonnage). C’est l’approche qui sera utilisée ici.

Dans une enquête par sondage, des inférences sont faites au sujet de la population visée à partir des données recueillies auprès d’une partie seulement de cette population. Les résultats divergeront probablement de ceux pouvant être obtenus d’un recensement complet de cette population dans les mêmes conditions. L’erreur causée par l’étendue des conclusions fondées sur un échantillon seulement à toute la population est appelée erreur d’échantillonnage. Au nombre des facteurs qui contribuent aux erreurs d’échantillonnage, on trouve : la taille de l’échantillon, la variabilité des caractéristiques étudiées, le plan de sondage et la méthode d’estimation.

L’erreur non due à l’échantillonnage, comme son nom l’indique, n’a rien à voir avec le processus d’échantillonnage et se produit dans un recensement aussi bien que dans une enquête par sondage. Ce type d’erreur peut survenir à n’importe quelle étape d’une enquête (planification, conception, collecte des données, codage, saisie, vérification, estimation, analyse et diffusion des données) et est principalement attribuable à des erreurs humaines. Les intervieweurs peuvent avoir mal compris les instructions, les répondants peuvent se tromper en répondant aux questions, les réponses peuvent être mal saisies sur le questionnaire et des erreurs peuvent survenir lors du traitement et de la totalisation des données. Ce sont tous des exemples d’erreurs non dues à l’échantillonnage. L’erreur non due à l’échantillonnage est également associée à d’autres types d’erreurs, comme des erreurs dans les sources d’information, les méthodes utilisées pour obtenir des projections démographiques, des erreurs de désaisonnalisation, etc.

Pour surveiller et assurer la qualité de ses données, l’EPA s’est dotée d’un programme pour mesurer la qualité des données. Une gamme d’indicateurs de qualité sont produits sur une base régulière et analysés avec soin. En présence de valeurs inhabituelles, les responsables de l'EPA sont immédiatement avisés afin d'apporter les corrections nécessaires le plus rapidement possible. Certains indicateurs sont tout simplement surveillés, puisque leur rôle est de déceler des tendances ou des effets à long terme. À titre d’exemple, certains indicateurs permettent de mesurer les conséquences de certains changements d’ordre opérationnel alors que d’autres mesurent l’effet de modifications mineures au plan de sondage. Ces renseignements à long terme au sujet de la fiabilité des données peuvent servir à apporter des changements susceptibles d’améliorer la qualité générale des résultats et d’aider les analystes et les utilisateurs de données, tant à l’interne qu’à l’externe, dans leur travail.

Les indicateurs de la qualité produits par l’EPA sont décrits ci-dessous. La section 8.1 présente des indicateurs liés aux erreurs d’échantillonnage. Les indicateurs liés aux erreurs non dues à l’échantillonnage sont décrits à la section 8.2. La section 8.3 décrit les comités chargés de surveiller divers aspects de l’EPA afin d’assurer la qualité des données diffusées. La section 8.4 informe les utilisateurs d’autres ressources disponibles au sujet de la qualité des données de l’EPA.

8.1  Indicateurs de la qualité qui se rattachent aux erreurs d’échantillonnage

L’erreur d’échantillonnage a été définie auparavant comme une erreur découlant de l’estimation d’un paramètre de population selon laquelle une partie de la population est mesurée, au lieu de la population au complet. L’effet des erreurs d’échantillonnage sur les estimations de l’enquête dépend de plusieurs facteurs, y compris la taille de l’échantillon, le plan de sondage, la méthode d’estimation et la variabilité de la caractéristique d’intérêt.

Tous les autres facteurs étant constants, l’erreur d’échantillonnage devrait diminuer à mesure que la taille de l’échantillon augmente. Ce phénomène traduit le fait que l’erreur d’échantillonnage devrait tomber à zéro une fois la population complète échantillonnée. Pour une taille donnée de l’échantillon, l’erreur d’échantillonnage est couplée à l’efficacité relative de diverses caractéristiques du plan. La stratification, la répartition et la méthode de sélection à chaque étape ont toutes une certaine incidence sur l’ampleur de l’erreur d’échantillonnage. La méthode d’estimation utilisée joue également un rôle important pour un plan de sondage donné. Par exemple, la méthode d’estimation composite utilisée par l’EPA réduit considérablement les erreurs d’échantillonnage (voir le chapitre 6).

Enfin, l’erreur d’échantillonnage varie d’une variable à une autre puisque le degré de variabilité diffère également d’une variable à une autre. Ces erreurs sont généralement plus grandes pour les caractéristiques qui sont relativement rares, ainsi que lorsque la caractéristique d’intérêt n’est pas répartie uniformément dans la population. Ainsi, bien qu’elles se fondent sur le même échantillon, les estimations relatives au chômage comportent généralement une erreur d’échantillonnage plus élevée que les données relatives à l’emploi.

Pour les enquêtes-échantillons probabilistes, comme l’EPA, il existe des méthodes pour calculer les erreurs d’échantillonnage. La mesure appliquée le plus souvent pour quantifier l’erreur d’échantillonnage est la variance d’échantillonnage. Les méthodes employées pour l’estimation de la variance dans le cas de l’EPA ont été présentées au chapitre 7.

Trois mesures clés sont obtenues de la variance d’échantillonnage : l’erreur type (ET), le coefficient de variation (CV) et l’effet de plan.

8.1.1 Erreur type

L’erreur type, définie comme la racine carrée de la variance d’échantillonnage, peut être utilisée pour calculer l’intervalle de confiance associé à une estimation. L’intervalle de confiance repose sur l’estimation obtenue et sa largeur dépend de l’erreur type et d’un paramètre lié au niveau de confiance.

À titre illustratif, examinons l’exemple suivant. En mai 2015, l’estimation de l’EPA pour le taux de chômage de la population canadienne de 15 ans et plus se situait à 6,8 %, et l’erreur type associée à cette estimation se chiffrait à 0,001395. Un intervalle de confiance approximatif de 68 % pour le taux de chômage réel est alors donné par 0,068±1×(0,001395), ou de 6,66 % à 6,94 %. Le niveau de confiance signifie que si le même processus de sélection et d’estimation était répété à plusieurs reprises (menant à différents échantillons et à différentes estimations), 68 % des intervalles de confiance conçus de cette manière contiendraient la valeur vraie de la population.

Les estimations du changement d’un mois à l’autre ont pris une grande importance pour les utilisateurs au fil du temps. À cet égard, la diffusion mensuelle de l’EPA indique maintenant les erreurs types (ET) pour les changements provinciaux et nationaux d’un mois à l’autre pour les personnes ayant un emploi et les chômeurs.

Compte tenu de leur stabilité, les ET incluses dans la publication mensuelle de l’EPA ne sont pas mises à jour chaque mois. Au lieu de cela, une estimation de l’ET correspondant à la moyenne des ET des 12 mois précédents est fournie. Ces estimations sont mises à jour deux fois l’an (habituellement en janvier et en juillet). Le tableau ci-dessous indique les ET observées pour la variation d’un mois à l’autre des estimations de l’emploi et du chômage, pour la population canadienne de 15 ans et plus.

Tableau 8.1
Erreur type (ET) de la variation d’un mois à l’autre, personnes ayant un emploi et chômeurs
Sommaire du tableau
Le tableau montre les résultats de Erreur type (ET) de la variation d’un mois à l’autre. Les données sont présentées selon Province (titres de rangée) et Travailleurs et Chômeurs, calculées selon millier unités de mesure (figurant comme en-tête de colonne).
Province Travailleurs Chômeurs
millier
Terre-Neuve-et-Labrador 2,1 2,1
Île‑du-Prince-Édouard 0,6 0,6
Nouvelle-Écosse 2,7 2,5
Nouveau-Brunswick 2,3 2,1
Québec 15,9 13,7
Ontario 19,3 17,0
Manitoba 2,6 2,1
Saskatchewan 2,7 2,1
Alberta 9,8 8,1
Colombie-Britannique 10,6 8,5
Canada 29,5 25,3

8.1.2 Coefficient de variation

Le coefficient de variation (CV), qui est défini comme l’erreur type divisée par l’estimation, est une mesure relative de la variation et est habituellement exprimée en pourcentage. Dans l’exemple utilisé précédemment, le CV pour le taux de chômage de mai 2015 est de 2,05 % ((0,001395/0,068)×100 %). Cela donne une idée de l’incertitude associée aux estimations. De petits CV sont souhaitables car ils indiquent que la variabilité due à l’échantillonnage est petite par rapport à l’estimation.

Afin d’obtenir les CV, les utilisateurs ont accès à des tableaux des CV approximatifs. Ces tableaux indiquent les CV approximatifs en fonction des valeurs observées des estimations, pour divers domaines. Les valeurs sont prudentes puisque, si plusieurs estimations étaient produites pour le même domaine, environ 75 % des CV approximatifs obtenus à partir des tableaux seront supérieurs aux CV réels qui seraient calculés si les méthodes précises étaient utilisées. Cependant, 25 % des CV approximatifs seront un peu plus faibles que le calcul précis. L’effet net se traduit par la production d’indicateurs de qualité qui montrent une qualité des estimations de l’enquête inférieure à la réalité – les intervalles de confiance sont plus larges et les tests statistiques révèlent moins de différences significatives. Ces CV approximatifs sont mis à jour chaque année et fournis dans le Guide de l’Enquête sur la population active (71-543-G).

8.1.3 Effet de plan

Une troisième mesure dérivée de la variance d’échantillonnage est l’effet de plan, une mesure relative que l’on calcule en divisant la variance d’échantillonnage d’une estimation obtenue au moyen du plan d’enquête par la variance d’échantillonnage d’un échantillon aléatoire simple (EAS) de la même taille. Cette mesure peut également être utilisée pour comparer l’efficacité d’un plan de sondage par rapport à un autre. Dans le cas de l’EPA, elle est particulièrement utile en tant qu’indicateur de la détérioration du plan de sondage au fil du temps, ou en tant que comparaison indiquant le gain ou la perte d’efficacité découlant du remaniement de l’enquête ou de la modification de certaines composantes du plan.

Différents types d’effets de plan de sondage peuvent être calculés, chacun dépendant des données utilisées pour les établir. Dans les lignes qui suivent, le terme effet du plan non ajusté sera employé pour désigner les effets de plan de sondage basés sur les poids non calés, c’est-à-dire sans l’ajustement qui tient compte des chiffres de population et des totaux estimatifs. Le terme effet de plan ajusté sera employé pour désigner les effets de plan de sondage qui sont basés sur les poids finaux, après calage composite. Par conséquent, les effets du plan de sondage non ajustés indiquent l’efficacité du plan de sondage, tandis que les effets du plan de sondage ajustés apportent une évaluation plus générale de la stratégie globale adoptée en combinant toutes les caractéristiques du plan d’enquête (stratification, échantillonnage à plusieurs degrés, poststratification et estimation). Plus l’effet de plan est faible, plus le plan est efficace en ce qui concerne la variance de l’échantillonnage. Il convient de souligner que les effets du plan non ajustés (plan de sondage) sont généralement plus importants que les effets du plan ajustés (plan d’enquête) fondés sur les poids finaux, puisqu’ils ne profitent pas du gain de précision qu’apporte le calage sur marges.

Le tableau suivant présente quelques valeurs représentatives des effets du plan ajustés et non ajustés pour les caractéristiques emploi et chômage à l’échelle nationale et provinciale, selon les données d’enquête de janvier à août 2015.

Tableau 8.2
Effets du plan, employés et chômeurs, 2015
Sommaire du tableau
Le tableau montre les résultats de Effets du plan. Les données sont présentées selon Province (titres de rangée) et Travailleurs et Chômeurs(figurant comme en-tête de colonne).
Province Travailleurs Chômeurs
Ajustés Non ajustés Ajustés Non ajustés
Terre-Neuve-et-Labrador 0,40 1,78 1,08 1,00
Île‑du-Prince-Édouard 0,31 1,28 1,00 1,03
Nouvelle-Écosse 0,35 1,85 1,08 1,17
Nouveau-Brunswick 0,36 2,20 1,17 1,17
Québec 0,50 2,70 1,66 1,96
Ontario 0,42 2,92 1,39 1,64
Manitoba 0,32 3,03 1,01 1,19
Saskatchewan 0,34 4,87 1,10 1,11
Alberta 0,48 4,25 1,44 1,66
Colombie-Britannique 0,44 3,52 1,44 1,59
Canada 0,54 3,73 1,77 2,08

Dans l’EPA, les effets non ajustés du plan, ainsi que d’autres renseignements, sont utilisés pour déterminer les régions où le plan de sondage a perdu une importante partie de son efficacité au fil du temps. Dans certains cas, un léger remaniement est effectué dans ces régions pour remédier à ce problème.

8.2  Indicateurs de la qualité qui se rattachent aux erreurs non dues à l’échantillonnage

Les erreurs non dues à l’échantillonnage sont des erreurs qui surviennent pendant à peu près toutes les activités d’enquête, mis à part l’échantillonnage. L’effet sur les estimations peut se manifester sous forme de biais et/ou de variabilité accrue dans les estimations. Si ces erreurs sont des erreurs aléatoires, leurs effets seront à peu près annulés dans un secteur suffisamment grand, ce qui n’entraînera rien de plus qu’une variabilité accrue. Par contre, l’effet peut demeurer important lorsqu’il s’agit de petits secteurs ou lorsque les caractéristiques à l’étude sont rares. Si les erreurs sont systématiques, en ce sens qu’elles ont tendance à aller dans la même direction, il s’ensuivra des résultats finals biaisés. De plus, contrairement aux erreurs aléatoires, le biais associé aux erreurs systématiques ne peut être réduit en augmentant la taille de l’échantillon.

Les sources d’erreurs non dues à l’échantillonnage les plus fréquentes sont l’erreur de couverture, la non-réponse, les erreurs de mesure ou de réponse et les erreurs de traitement. Nous y reviendrons individuellement dans les sections qui suivent.

8.2.1 Erreurs de couverture

Les erreurs de couverture sont des omissions, des inclusions erronées, des répétitions et des erreurs de classification d’unités dans la base de sondage. Dans le cas de l’EPA, ces erreurs peuvent se produire lorsque la liste des logements associée à une UPE est établie ou chargée, lorsque la liste est mise à jour pour cerner la croissance, lorsque les logements et/ou les personnes à inclure dans l’enquête sont contactés, ou lorsque des données sont recueillies et traitées. Dans l’EPA, trois grands indicateurs sont utilisés pour mesurer et surveiller les erreurs de couverture : le taux de glissement, le taux d’inoccupation et l’évaluation du rendement de l’UPE.

Le taux de glissement est la différence relative entre les estimations de la taille de la population établies à partir des poids avant le calage et les dernières estimations démographiques utilisées comme totaux pour le calage.

Les estimations démographiques utilisées dans la détermination du taux de glissement peuvent également comporter des erreurs, et ces erreurs sont en fait un des facteurs qui contribuent au glissement. Dans l’EPA, le sous-dénombrement est habituellement observé, comme l’indique un taux de glissement positif. Pour réduire le biais obtenu le plus possible, le poids de chaque répondant est modifié par le facteur de correction par calage composite (voir le chapitre 6).

Le sous-dénombrement découle de l’omission de logements ou de personnes dans la population cible. Il se peut qu’un logement occupé ne soit pas inscrit dans la liste des UPE pour diverses raisons : omission lors de l’établissement de la liste, immeuble en construction durant la dernière vérification, erreurs dans les délimitations de la grappe ou encore logement classifié vacant par erreur. Il est également possible que des personnes soient oubliées dans un ménage, soit parce que le répondant ne révèle pas sa présence ou encore qu’on lui a attribué un lieu de résidence habituel ailleurs que dans le ménage échantillonné. Les étudiants sont souvent oubliés puisqu’ils résident ailleurs durant leurs études, quoique leur résidence habituelle soit dans l’échantillon. Des erreurs peuvent donc se glisser dans les estimations de l’enquête, si les caractéristiques des personnes non incluses dans l’enquête diffèrent de celles des personnes incluses. Par exemple, si l’enquête n’inclut pas une partie de la population qui est jeune et grandement mobile, qui affiche un taux de chômage plus élevé que celui de la population du même âge dans l’enquête, le glissement biaise les estimations du chômage à la baisse.

Le glissement est également touché par les corrections pour tenir compte de la croissance démographique et de la non-réponse. La population s’accroît entre les remaniements, généralement à des endroits spécifiques et non pas de manière uniforme. L’échantillon sélectionné peut surestimer ou sous-estimer cette croissance ou en rendre compte de façon précise. Par exemple, les UPE sélectionnées dans une région peuvent n’afficher aucune croissance, mais d’autres UPE dans la base de sondage de la même région pourraient enregistrer une croissance significative. En pareil cas, la croissance serait sous-estimée par l’échantillon sélectionné, et si les estimations projetées de population cadrent avec la croissance réelle, les taux de glissement augmenteraient pour cette région.

Les corrections pour tenir compte de la non-réponse (voir les chapitres 5 et 6) peuvent également influencer le glissement. Par exemple, si les ménages non répondants ont moins de membres mais qu’ils sont représentés dans l’échantillon, au moyen de l’imputation ou de facteurs de correction de la non-réponse, par les gros ménages, le taux de glissement peut être touché.

Finalement, comme mentionné précédemment, les estimations de population ont également un rôle à jouer en ce qui concerne le glissement. Plus elles sont précises, plus les taux de glissement sont utiles.

Tous les mois, les taux de glissement sont analysés rigoureusement. Ils sont produits tous les mois à l’échelle nationale (sauf les territoires) et provinciale et pour 12 groupes d’âge-sexe (15 à 19 ans, 20 à 24 ans, 25 à 29 ans, 30 à 39 ans, 40 à 54 ans et 55 ans et plus). Le tableau qui suit présente les taux de glissement moyens pour l’année civile 2015.

Tableau 8.3
Taux de glissement moyens – Canada par groupe d’âge et province, 2015
Sommaire du tableau
Le tableau montre les résultats de Taux de glissement moyens – Canada par groupe d’âge et province. Les données sont présentées selon Canada (titres de rangée) et %(figurant comme en-tête de colonne).
%
Canada
Tous les âges 11,7
15 à 19 ans 8,2
20 à 24 ans 21,3
25 à 29 ans 21,3
30 à 39 ans 16,3
40 à 54 ans 9,8
55 ans et plus 7,0
Terre-Neuve-et-Labrador 11,6
Île-du-Prince-Édouard 16,2
Nouvelle-Écosse 12,3
Nouveau-Brunswick 11,7
Québec 8,6
Ontario 12,0
Manitoba 9,5
Saskatchewan 13,7
Alberta 15,1
Colombie-Britannique 12,8

Les logements identifiés correctement comme étant vacants ou invalides n'introduisent aucun biais dans les estimations de l'EPA. Toutefois, la variance de l’estimation s’en trouve plus élevée puisque l’échantillon compte un nombre moins élevé de ménages valides. Les intervieweurs de l’EPA retournent visiter les logements vacants sélectionnés tous les mois afin d’interviewer les personnes ciblées par l’enquête qui peuvent avoir emménagé depuis le mois précédent. Les logements inexistants sont tout simplement retirés de la base de sondage. Une attention particulière doit être accordée à la détermination des logements qui sont vacants, qui influencent directement deux autres indicateurs. En effet, si un logement est codé vacant alors que les occupants sont temporairement absents, le taux de non-réponse produit pour l’EPA sera sous-estimé. Par ailleurs, le taux de glissement s’en trouve surestimé puisque ce logement mal codé aurait dû être considéré lors de la détermination de ce taux. Les intervieweurs se doivent donc de faire un travail très minutieux pour déterminer si un logement est vacant, et par conséquent, hors du champ de l’enquête, ou tout simplement occupé par un ménage temporairement absent et donc dans le champ de l’enquête. Les taux d’inoccupation sont également produits et surveillés tous les mois.

Le tableau suivant présente les taux d’inoccupation moyens et les valeurs minimum et maximum pour 2015 à l’échelle provinciale et nationale.

Tableau 8.4
Taux d’inoccupation (non pondéré), Canada et les provinces, 2015
Sommaire du tableau
Le tableau montre les résultats de Taux d’inoccupation (non pondéré). Les données sont présentées selon Province (titres de rangée) et Moyenne, Maximum et Minimum, calculées selon % unités de mesure (figurant comme en-tête de colonne).
Province Moyenne Maximum Minimum
%
Terre-Neuve-et-Labrador 15,4 16,4 14,5
Île‑du-Prince-Édouard 21,1 23,4 19,8
Nouvelle-Écosse 18,1 18,9 17,4
Nouveau-Brunswick 17,1 18,1 16,2
Québec 12,8 13,3 12,2
Ontario 11,5 11,8 11,2
Manitoba 14,1 15,5 12,0
Saskatchewan 14,3 15,8 12,6
Alberta 14,6 15,2 13,7
Colombie-Britannique 12,3 13,2 11,9
Canada 13,7 14,1 13,0

Pour cet indicateur de la qualité, une certaine variabilité est observée entre les provinces. Ce phénomène est lié à la proportion de logements saisonniers possédés variant d’une province à une autre. Les logements saisonniers sont toujours considérés comme vacants, parce qu’ils ne sont pas le lieu de résidence habituel des occupants.

Le rendement des UPE est surveillé tous les mois pour détecter les différences importantes entre le nombre de logements sondés sur le terrain et le nombre de logements anticipés par le plan de sondage. Par conséquent, tout écart significatif, comme 50 % (positif ou négatif), entre un extrait du FUL et les résultats de l’enquête sur le terrain, est examiné. D’abord, toutes les grappes ayant un rendement inattendu sont portées à l’attention de l’unité responsable du contrôle de l’échantillon à Ottawa, qui vérifie les frontières de la grappe et le nombre de logements attendu. Si l’écart ne peut être expliqué au bureau central, la grappe est acheminée au bureau régional concerné pour être analysée en détail. Toutes les causes expliquant les écarts sont répertoriées pour consultation future.

Ce contrôle joue un rôle important puisque si la taille de l’échantillon nécessite des changements, il est essentiel de connaître quelles régions sont sous-échantillonnées ou suréchantillonnées. De plus, les écarts enregistrés peuvent révéler des problèmes pour l'enquête qui pourraient entacher la qualité des données de l'EPA.

Tous ces indicateurs (taux de glissement, taux d’inoccupation et rendement de l’UPE) servent à détecter les problèmes potentiels en ce qui concerne la couverture de l’échantillon et à participer à la prise de mesures appropriées. À titre d’exemples de mesures possibles, mentionnons la création d’outils de formation pour les intervieweurs afin d’enrichir leurs connaissances sur les règles de composition du ménage, la distribution d’un bulletin expliquant le glissement ou le concept des logements multiples, ou l’établissement d’un programme pour tenir à jour la liste d’un certain nombre d’UPE réputées en croissance.

8.2.2 Non-réponse

Chaque mois, durant la semaine d'enquête, les intervieweurs s'affairent à déterminer quels sont les logements sélectionnés qui contiennent des personnes admissibles à l'enquête. Les logements réputés inadmissibles pour le mois d’enquête le sont pour les raisons suivantes :

Lorsqu’un logement est réputé admissible à l’enquête, il n’est pas toujours possible de réaliser une interview. On parle alors de non-réponse des ménages, un phénomène qui peut être attribuable  à diverses raisons, notamment les suivantes : personne à la maison, absence temporaire, interview impossible (mauvaises conditions météorologiques, circonstances inhabituelles dans le ménage, etc.), problèmes techniques ou refus.

L’ampleur du biais attribuable à la non-réponse est habituellement inconnue, mais elle est directement liée aux caractéristiques divergentes entre les groupes d’unités répondantes et les groupes d’unités non répondantes. Étant donné que l’effet de ce biais s’accroît à mesure que le taux de non-réponse augmente, on s’efforce de maintenir le taux de réponse le plus haut possible pendant la collecte.

Le tableau suivant présente les taux de non-réponse moyens, ainsi que les taux minimum et maximum pour l’année 2015.

Tableau 8.5
Taux de non-réponse (non pondérés), Canada et les provinces, 2015
Sommaire du tableau
Le tableau montre les résultats de Taux de non-réponse (non pondérés). Les données sont présentées selon Province (titres de rangée) et Moyenne, Maximum et Minimum, calculées selon % unités de mesure (figurant comme en-tête de colonne).
Province Moyenne Maximum Minimum
%
Terre-Neuve-et-Labrador 11,2 13 9,9
Île‑du-Prince-Édouard 10,9 12,2 9,0
Nouvelle-Écosse 10,3 11,3 9,7
Nouveau-Brunswick 11,4 12,5 10,5
Québec 10,2 11,9 8,2
Ontario 13,9 15,4 12,6
Manitoba 11,7 12,8 10,3
Saskatchewan 11,9 12,8 11,1
Alberta 12,8 14,0 11,5
Colombie-Britannique 11,7 12,6 10,6
Canada 12,0 13,1 11,2

Tous les mois, l’EPA produit les taux de non-réponse en fonction de la cause (simple refus, aucun contact, absence temporaire, problème technique, ou autre raison) ainsi que par mode de collecte. Ces taux sont analysés avec soin afin de déceler les causes majeures de la non-réponse et d’apporter les correctifs requis.

Les taux de refus pour l’EPA sont habituellement très bas, les taux canadiens mensuels oscillant de 1 % à 2 %. Les taux de refus sont ordinairement semblables d’une province à une autre, mais ils peuvent descendre aussi bas que 0,5 % ou monter aussi haut que 3 %. Dans une certaine mesure, le système de collecte rend possible la collecte de renseignements supplémentaires sur la raison du refus, ce qui permet de suivre l’évolution de l’attitude des répondants à l’égard de l’enquête au fil du temps.

8.2.3 Erreurs de mesure ou de réponse

Les erreurs de mesure ou de réponse peuvent être attribuables à la conception du questionnaire, à la formulation des questions, à la compréhension du répondant, à la façon dont l’interview est menée ou aux conditions générales dans lesquelles l’enquête est réalisée. Elles peuvent se produire au moment où les renseignements sont fournis, reçus ou entrés dans l’ordinateur. Toutefois, le mode de collecte informatisé permet de réduire certaines de ces erreurs, puisque certaines règles de vérification sont intégrées à l’instrument de collecte et que les conflits doivent être résolus au moment même de l’interview. Il se peut cependant que le répondant interprète mal la question, qu’il ne sache pas la réponse, qu’il ait oublié ou qu’il préfère déformer les faits pour des raisons qui lui sont personnelles. De plus, les intervieweurs peuvent réinterpréter involontairement les réponses. Comme pour les autres catégories d’erreurs, les erreurs de réponse peuvent donner lieu à une augmentation de la variance et/ou à la présence d’un biais.

Les réponses par personne interposée fournies par un membre du ménage lorsque l’information est recueillie au sujet d’un autre membre du ménage peuvent également entraîner des erreurs de réponse. Cependant, ces erreurs sont considérées comme préférables aux erreurs de non-réponse qu’il faudrait régler si les réponses étaient acceptées uniquement par le répondant pour lui-même. À l’heure actuelle, environ 60 % des renseignements de l’EPA sont fournis par une personne interposée, et ce taux demeure relativement stable au fil du temps.

Dans les enquêtes répétées, où l’échantillon est constitué d’un certain nombre de panels ou de groupes de renouvellement, l’espérance mathématique des estimations varie légèrement d’un groupe de renouvellement à un autre. Il se produit alors ce qu’on appelle un biais de renouvellement. En ce qui concerne l’EPA, ce biais atteint son plus haut niveau pour le sixième de l’échantillon qui en est à sa première interview. Il est possible de calculer l’effet du renouvellement en calculant le ratio entre une estimation calculée pour la partie de l’échantillon participant à l’enquête un certain nombre de fois (premier mois, deuxième mois, etc.) et l’estimation calculée pour l’échantillon entier.

Brisebois et Mantel (1996) ont calculé un indice de renouvellement modifié qui tient compte des différences des effets des erreurs dues à l’échantillonnage pour les six groupes de renouvellement. Leur étude a révélé plusieurs écarts significatifs entre les groupes de renouvellement, mais l’effet général a été réputé mineur.

8.2.4 Erreurs de traitement

Des erreurs de traitement peuvent se produire à diverses étapes de l’enquête, comme à la saisie, à la validation, à la vérification, au codage, à l'imputation, à la pondération et à la totalisation des données.

La méthode de collecte informatisée aide à prévenir les erreurs de cheminement pendant la saisie des données, puisque l’application détermine l’ordre des questions. De même, certaines règles de vérification sont intégrées au système de collecte, ce qui permet de détecter et de corriger certaines divergences au moment de l’interview.

Les variables « profession » et « secteur d’activité» sont codées en fonction des normes de classification au bureau central. Au premier mois des interviews, l’intervieweur recueille de l’information décrivant avec précision le genre d’entreprise, de secteur d’activité ou de service où la personne travaille, ainsi que de l’information indiquant clairement et précisément le genre de travail ou la nature des fonctions. Le premier type d’information servira à déterminer le secteur d’activité, tandis que le second permettra d’identifier la profession. Une des premières étapes du traitement au bureau central consiste à coder l’information descriptive recueillie pour les variables « profession » et « secteur d’activité» selon la classification type pour ces variables, la CNP et le SCIAN. Des processus de contrôle de la qualité mensuels sont en place pour évaluer la précision de ce processus de codage.

Le taux d’imputation est également un indicateur de qualité relatif au traitement des données. Chaque mois, des diagnostics évaluant les résultats du processus d’imputation sont produits et examinés rigoureusement. Les diagnostics renseignent sur le nombre d’enregistrements traités par chaque méthode d’imputation et à chaque niveau de regroupement (voir le chapitre 5). Les profils respectifs des enregistrements non imputés et des enregistrements imputés sont comparés, ainsi que leur contribution respective aux estimations clés de l’enquête. On peut ainsi contrôler la qualité de l’imputation et prendre les mesures qui s’imposent.

Pour éviter les erreurs susceptibles de se produire aux étapes de l’estimation et de la totalisation, un outil d’évaluation pré-diffusion a été conçu. Grâce à cet outil, il est possible de faire ressortir des variables, des sous-groupes et/ou des domaines pour lesquels les estimations et/ou les erreurs types sont anormalement éloignées de leurs moyennes historiques respectives. Ces estimations peuvent être examinées de plus près pour déterminer si une erreur quelconque est à l’origine du changement soudain. En outre, des comparaisons avec d’autres sources de données sont effectuées régulièrement, afin de vérifier si les données de l’EPA sont conformes à d’autres réalités économiques.

8.2.5 Observation des procédures de collecte

L’application de collecte produit des fichiers de paradonnées contenant une foule de renseignements sur les activités des intervieweurs sur le terrain et dans les centres d’appels. À partir de ces fichiers, il est possible de produire des indicateurs de qualité des activités des intervieweurs. L’EPA analyse régulièrement les appels et les visites effectués par les intervieweurs. Parmi les rapports produits, mentionnons entre autres de l’information sur la durée des interviews (en personne et par téléphone), le nombre de tentatives en vue de joindre un répondant et le nombre de cas transférés d’un mode de collecte à un autre. Au moyen de cette source d’information, il est relativement facile de vérifier si les intervieweurs respectent rigoureusement les procédures de collecte et de prendre les mesures qui s’imposent pour les cas douteux. Ces indicateurs peuvent également être utilisés pour améliorer le programme de formation pour les intervieweurs et renforcer certaines composantes, comme la planification des tâches ou l’horaire de travail.

8.3  Comités de l'EPA

L'EPA a besoin de plusieurs groupes de coordination pour veiller au bon déroulement de l'enquête. Deux comités permanents sont décrits ci-après. Leur mandat consiste entre autres à s’occuper des opérations permanentes et à évaluer l’enquête de façon régulière.

8.3.1 Comité des opérations

Ce comité a pour mandat de surveiller les activités qui surviennent pendant chaque mois d’enquête et les circonstances entourant la réalisation de l’enquête, de veiller au bon déroulement des opérations, d’examiner les changements proposés et d’en recommander ou non  l’adoption. Le Comité des opérations est présidé par un membre principal de la Division de la statistique du travail et se réunit toutes les semaines.

8.3.2 Comité de la qualité des données

Le Comité, qui a été créé officiellement au printemps 1972, a pour mandat d’examiner, d’évaluer et de documenter la qualité des enquêtes mensuelles, ainsi que de donner des conseils sur les aspects de la qualité à examiner. Il entreprend et examine également des études et des recherches ponctuelles au sujet des méthodes et des procédures influant sur la qualité des données, et formule des recommandations en fonction de ses constatations. Ce comité est présidé par un membre de la Division des méthodes d’enquêtes auprès des ménages.

Pour assurer la meilleure qualité possible des données, le Comité sur la qualité des données examine périodiquement les différents indicateurs de qualité décrits précédemment. Il se réunit chaque mois pour étudier et évaluer la qualité des données mensuelles et pour faire des suggestions et des recommandations sur tout aspect susceptible d’améliorer la qualité. En suivant étroitement l’évolution des indicateurs de la qualité, le Comité peut intervenir immédiatement auprès des responsables des activités de l’EPA concernées afin de contrôler la qualité des données mensuelles. Le Comité discute également de faits nouveaux susceptibles d’influencer la qualité des données venant d’être recueillies ou devant être recueillies dans l’avenir, en particulier les changements relatifs aux méthodes de collecte ou au questionnaire, les problèmes inhabituels sur le terrain, la mise à l’essai continue des procédés et des méthodes, etc.

8.4  Ressources disponibles au sujet de la qualité des données de l’EPA

Il y a de multiples autres ressources contenant des informations sur différents aspects de la qualité des données de l’EPA.  Cette section fera la description de quelques-unes d’entre elles.

8.4.1 Le Quotidien

L’Enquête sur la population active évalue l’état actuel du marché du travail canadien. Grâce aux données recueillies par l’EPA, il est possible de produire divers types d’estimations (estimations mensuelles, estimation de la variation d’un mois à l’autre, moyenne mobile sur trois mois, etc.) pour bien des caractéristiques différentes (situation vis-à-vis de l’activité, heures travaillées, titulaires d’emplois multiples, etc.), dans des milliers de domaines (national, provincial, infraprovincial, groupes d’âge-sexe, etc.). Statistique Canada publie les estimations de l’EPA à chaque mois, seulement 10 jours après la fin de la collecte des données. La diffusion des nouvelles estimations de l’EPA, qui survient généralement le premier vendredi du mois, est annoncée dans Le Quotidien, le bulletin de diffusion officielle des données de Statistique Canada, et est accompagnée d’une analyse sommaire du marché du travail actuel. La diffusion inclut aussi des informations sur des aspects précis de l’enquête, tels  que les révisions à venir, les produits et rapports nouvellement disponibles, la date de la prochaine diffusion. 

8.4.2 La page web de l’Enquête sur la population active

La page web de l’Enquête sur la population active, sur le site web de Statistique Canada, contient de l’information détaillée sur plusieurs aspects de l’enquête, incluant la qualité.  En particulier, la page contient de l’information sur le processus d’évaluation de qualité et sur les diverses sources de données auxquelles les estimations de l’EPA sont comparées pour déterminer si les tendances du marché du travail concordent avec la performance générale de l’économie.  On y trouve aussi un sommaire des changements survenus aux données ou aux estimations au fil du temps.

8.4.3 Le Guide de l’Enquête sur la population active

Le Guide de l’Enquête sur la population active (71-543-G) est une source précieuse d’informations sur les concepts, les classifications et les définitions utilisés par l’enquête.  Il contient aussi des lignes directrices et du soutien pour la comparaison des estimations de l’EPA avec les estimations produites par d’autres enquêtes (telles que l’Enquête sur l’emploi, la rémunération et les heures de travail (EERH)) ou par d’autres pays (telles que les États-Unis).

8.4.4 Accès aux données de l’Enquête sur la population active

Pour les utilisateurs intéressés par les estimations les plus courantes de l’EPA, l’information pourrait être facilement accessible dans les tableaux connexes de CANSIM. Divers types d’estimations sont fournies pour différents domaines et les règles de divulgation sont appliquées pour protéger la confidentialité.

Pour des situations plus précises, les utilisateurs peuvent utiliser le fichier de microdonnées à grande diffusion publié mensuellement (71M0001X). Ce produit s’adresse aux utilisateurs qui préfèrent effectuer leur propre analyse et leur permet de se concentrer sur des sous-groupes en particulier dans la population ou de recouper les variables qui ne sont pas dans les produits catalogués. Les utilisateurs peuvent alors envoyer leurs demandes en recouvrement des coûts pour obtenir les estimations de la variance associées à leurs besoins particuliers.

Un centre de données de recherche (CDR) donne accès aux fichiers de microdonnées confidentielles de Statistique Canada. Ils ne sont accessibles qu’aux chercheurs dont les projets ont été approuvés et qui ont prêté serment en tant que « personnes réputées être employées » de Statistique Canada.  Les fichiers de microdonnées confidentielles des CDR contiennent la plus grande partie des renseignements recueillis sur le sujet dans le cadre de l’interview d’enquête, ainsi que des variables dérivées ajoutées par la suite à l’ensemble des données. Ils contiennent également les poids bootstrap qui servent à calculer les estimations de variance.  Ces poids ne se trouvent que dans le fichier principal.  On trouve des CDR à l’étendue du pays.  Pour en savoir plus, veuillez visiter www.statcan.gc.ca/fra/cdr/index.

Le système d’accès à distance en temps réel (ADTR) vient compléter les méthodes existantes d’accès aux microdonnées confidentielles.  À l’aide d’un nom d’utilisateur et d’un mot de passe sécurisés, l’ADTR offre en tout temps un accès aux résultats d’enquête à partir de n’importe quel ordinateur muni d’un accès à internet.  La confidentialité des microdonnées est automatisée dans le système d’ADTR, rendant ainsi inutile l’intervention manuelle et permettant d’accéder rapidement aux résultats.  Afin d’utiliser le programme d’accès direct en temps réel (ADTR), les demandeurs doivent remplir un formulaire de demande.  Pour obtenir plus de renseignements, veuillez visiter www.statcan.gc.ca/fra/adtr/adtr.

 [an error occurred while processing this directive]
Date de modification :