Enquête canadienne sur l’incapacité, 2017 : Guide des concepts et méthodes
7. Qualité des données

Warning Consulter la version la plus récente.

Information archivée dans le Web

L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

Passer au texte

Début du texte

7.1 Aperçu de l’évaluation de la qualité des données

L’Enquête canadienne sur l’incapacité (ECI) vise à produire des estimations de qualité concernant le type et la sévérité des incapacités qu’éprouvent les Canadiens de 15 ans et plus (en date du 10 mai 2016). Elle fournit également des estimations à l’égard de divers indicateurs importants des expériences et des difficultés des personnes ayant une incapacité. Le présent chapitre examine la qualité des données de l’enquête.

Les sections 7.2 et 7.3 exposent deux genres d’erreurs qui se produisent dans les enquêtes — les erreurs d’échantillonnage et les erreurs non dues à l’échantillonnage. Chaque type d’erreur est évalué dans le cadre de l’ECI. Une erreur d’échantillonnage correspond à la différence entre les données obtenues à partir de l’échantillon de l’enquête et les données qui auraient été obtenues d’un recensement complet réalisé dans des conditions semblables auprès de l’ensemble de la population. Par conséquent, une erreur d’échantillonnage peut être décrite comme la différence découlant de la variabilité des échantillons. Les erreurs non dues à l’échantillonnage désignent toutes les autres erreurs causées par des facteurs autres que l’échantillonnage. Les erreurs non dues à l’échantillonnage peuvent se produire à n’importe quelle étape du processus d’enquête et elles comprennent la non-réponse à l’enquête ainsi que les erreurs introduites avant ou pendant la collecte ou lors du traitement des données.

Le présent chapitre décrit les différentes mesures adoptées afin de prévenir les erreurs lorsque c’était possible et d’apporter des ajustements en cas d’erreur lors des différentes étapes de l’ECI. Les aspects qu’il faut traiter avec prudence dans l’interprétation des données de l’ECI sont notés. Les lecteurs peuvent également consulter le Guide du Recensement de la population pour obtenir des renseignements connexes sur la qualité des données.

7.2 Erreurs d’échantillonnage et méthode bootstrap

Les estimations qui peuvent être calculées à partir de l’ECI sont fondées sur un échantillon de personnes. Des estimations quelque peu différentes auraient pu être obtenues si l’on avait procédé à un recensement complet au moyen des mêmes questionnaires, intervieweurs, superviseurs, méthodes de traitement, etc. que ceux réellement utilisés. La différence entre une estimation obtenue à partir de l’échantillon et celle découlant d’un dénombrement complet effectué dans des conditions similaires est appelée « erreur due à l’échantillonnage » de l’estimation.

Afin de fournir des estimations de l’erreur due à l’échantillonnage pour les statistiques produites dans le cadre de l’ECI, on a eu recours à un type particulier de méthode « bootstrap ». On retrouve plusieurs méthodes bootstrap dans les ouvrages publiés, mais aucune d’elles n’était appropriée pour le plan d’échantillonnage complexe de l’ECI. Les particularités du plan d’échantillonnage qui font qu’il est difficile d’estimer les erreurs dues à l’échantillonnage sont les suivantes :

En 2006, une méthode bootstrap généralisée pour l’échantillonnage à deux phases (Langlet, Beaumont et Lavallée, 2008) a été élaborée et appliquée à l’Enquête auprès des peuples autochtones (EAPA)Note . Le concept sous-jacent de la méthode bootstrap généralisée est que les poids bootstrap initiaux peuvent être considérés comme le produit du poids de sondage initial et d’un facteur d’ajustement aléatoire. Dans le cas d’un échantillon à deux phases, la variance peut être répartie en deux composantes, chacune étant associée à une phase de l’échantillonnage. La méthode bootstrap généralisée à deux phases produit un facteur d’ajustement aléatoire pour chaque phase d’échantillonnage. Dans ce cas, le poids bootstrap initial d’une unité est le produit de son poids de sondage initial et des deux facteurs d’ajustement aléatoires. Une fois les poids bootstrap initiaux calculés, tous les ajustements de poids appliqués aux poids d’échantillonnage initiaux sont appliqués aux poids bootstrap initiaux en vue d’obtenir les poids bootstrap finaux, qui rendront compte de la variance liée non seulement au plan d’échantillonnage particulier, mais aussi à tous les ajustements de poids appliqués à l’ensemble de l’échantillon pour calculer les poids finaux.

Pour l’ECI de 2012, on a pu adapter la méthode élaborée pour l’EAPA de 2006 afin de tenir compte des complexités  du plan de sondage de l’Enquête nationale auprès des ménages (ENM) qui remplaçait le questionnaire détaillé du recensement. Du point de vue du calcul de la variance, le plan de sondage de l’ENM de 2011 était alors considéré comme un plan à trois phases : la première phase correspondait à la sélection initiale d’environ un ménage sur trois, la seconde phase correspondait à la sélection d’un échantillon de ménages parmi tous les ménages non répondants afin de procéder à un suivi de la non-réponse, et la troisième phase correspondait à l’échantillon des répondants suite au suivi de la non-réponse. Pour pouvoir utiliser la méthode généralisée à deux phases, les trois phases de l’ENM étaient combinées en une seule phase, tandis que l’échantillon de l’ECI constituait la seconde phase.

Pour l’ECI de 2017, étant donné le retour du questionnaire détaillé au Recensement de 2016, on a repris la méthode de 2012 en la modifiant légèrement. Du point de vue du calcul de la variance, le plan de sondage du Recensement de 2016 est considéré comme un plan à deux phases : la première phase correspond à la sélection initiale d’environ un ménage sur quatre, et la seconde phase correspond à l’échantillon des répondants au recensement. Bien que le taux de réponse du Recensement de 2016 soit très élevé (97,8 % pour le questionnaire détaillé), cette seconde phase au recensement permet de tenir compte de la non-réponse dans le calcul de la variance. Ainsi, pour pouvoir utiliser la méthode généralisée à deux phases, les deux phases du recensement ont été combinées en une seule phase, tandis que l’échantillon de l’ECI de 2017 constituait la seconde phase.

La présence des deux ensembles de facteurs d’ajustement aléatoires comporte un avantage majeur. Le premier ensemble peut être utilisé pour les estimations fondées sur la première phase seulement, c’est-à-dire les estimations fondées sur l’échantillon du questionnaire détaillé du recensement. Ces estimations sont utilisées lorsque les poids sont ajustés en fonction des totaux du recensement au moment de la post-stratification (section 6.1). Cette méthode produira des totaux du recensement qui varient pour chaque échantillon bootstrap. Cela rend compte du fait que les totaux du recensement sont fondés sur un échantillon et non sur des totaux fixes connus.

Dans le cas de l’ECI, 1 000 ensembles de poids bootstrap ont été produits au moyen de la méthode de bootstrap généralisée. Cette méthode est légèrement biaisée, en ce sens qu’elle surestime légèrement la variance. Cependant, l’ampleur de la surestimation est considérée comme négligeable pour l’ECI. La méthode peut aussi produire des poids bootstrap négatifs. Pour remédier à ce problème, on a procédé à une transformation des poids bootstrap en vue de réduire leur variabilité. Par conséquent, la variance calculée à partir de ces poids bootstrap transformés doit être multipliée par un facteur qui est fonction d’un certain paramètre appelé phi. La valeur du paramètre est choisie de façon à correspondre au plus petit nombre entier pour lequel tous les poids bootstrap sont positifs. Pour l’ECI, la valeur de ce paramètre est 4. Les variances calculées à partir des poids bootstrap transformés doivent donc être multipliées par le facteur 42 = 16. De même, les coefficients de variation obtenus (racine carrée de la variance divisée par l’estimation proprement dite) doivent être multipliés par 4. Toutefois, la plupart des logiciels qui produisent des estimations de l’erreur d’échantillonnage à partir de poids bootstrap comportent une option permettant de préciser ce facteur de correction, afin que la bonne estimation de la variance soit obtenue sans la nécessité d’une étape additionnelle de multiplication par la constante.

Début de l’encadré

Il est extrêmement important d’utiliser le facteur multiplicatif approprié pour n’importe quelle mesure de l’erreur d’échantillonnage, comme la variance, l’erreur type et le c.v. L’omission de ce facteur multiplicatif produira des résultats et des conclusions erronés. Ce facteur est souvent spécifié comme étant « l’ajustement de Fay » dans les logiciels produisant des estimations de l’erreur d’échantillonnage à partir de poids bootstrap.

Pour des exemples de procédures utilisant l’ajustement de Fay, voir le Guide de l’utilisateur des fichiers de données analytiques de l’Enquête sur l’incapacité de 2017.

Fin de l’encadré

Enfin, la mesure de l’erreur due à l’échantillonnage utilisée pour l’ECI est le coefficient de variation (c.v.) de l’estimation, c’est-à-dire l’erreur type de l’estimation divisée par l’estimation proprement dite. Dans le cas de cette enquête, lorsque le c.v. d’une estimation est supérieur à 16,5 %, mais inférieur ou égal à 33,3 %, l’estimation sera accompagnée de la lettre « E », ce qui indique que les données doivent être utilisées avec prudence. Lorsque le c.v. d’une estimation est supérieur à 33,3 %, ou que l’estimation est basée sur un échantillon de 10 personnes ou moins, l’estimation de la cellule sera remplacée par la lettre « F », ce qui indique que le chiffre a été supprimé pour des raisons de fiabilité. 

7.3 Erreurs non dues à l’échantillonnage

En plus des erreurs d’échantillonnage, des erreurs non dues à l’échantillonnage peuvent  se produire à presque toutes les étapes d’une enquête : les répondants peuvent ne pas comprendre les questions et y répondre de façon erronée, les réponses peuvent être entrées de façon incorrecte par inadvertance, et des erreurs peuvent être introduites dans le traitement des données. Ce sont tous là des exemples d’erreurs non dues à l’échantillonnage.

Au sein d’un grand nombre d’observations, les erreurs aléatoires auront peu d’effet sur les estimations tirées de l’enquête. Toutefois, les erreurs qui se produisent systématiquement peuvent contribuer à des biais dans les estimations de l’enquête. Voilà pourquoi on a consacré beaucoup de temps et d’efforts à réduire les risques d’erreurs non dues à l’échantillonnage dans l’enquête. À l’étape de l’élaboration du contenu, de nombreuses activités ont été entreprises afin de formuler des questions et des choix de réponse qui seraient bien compris par les répondants. Le questionnaire a fait l’objet de nombreux essais qualitatifs. De plus, plusieurs initiatives ont été prises afin d’encourager la participation à l’enquête et de maximiser les taux de réponse. Des mesures d’assurance de la qualité ont été appliquées lors de la collecte, du codage et du traitement des données afin d’identifier et corriger les erreurs de données. Des ajustements aux poids de sondage ont été faits de sorte à tenir compte des caractéristiques différentes présentées par les non-répondants et les répondants, et ainsi minimiser le biais potentiel qui aurait pu en découler.

Dans les paragraphes suivants, on traite des différents types d’erreurs non dues à l’échantillonnage et des mesures utilisées pour réduire ou corriger ces erreurs dans l’ECI.

Erreurs de couverture

Des erreurs de couverture se produisent lorsque la population échantillonnée exclut des personnes qui devraient faire partie de la population ciblée. Étant donné que l’ECI est le prolongement du questionnaire détaillé du Recensement de 2016, elle hérite des problèmes de couverture de cette enquête, qui hérite elle-même des problèmes de couverture du Recensement de 2016. Pour en savoir davantage au sujet des erreurs de couverture dans le cadre du recensement, veuillez consulter le Rapport technique sur la couverture du Recensement de 2016, qui sera accessible sur le site Web de Statistique Canada en 2019. Pour de plus amples renseignements sur la qualité des données du recensement, veuillez consulter le chapitre 10 du Guide du Recensement de la population, 2016.

Erreurs de non-réponse

Il y a erreurs de non-réponse lorsqu’on ne parvient pas à recueillir des renseignements complets sur toutes les unités de l’échantillon sélectionné. La non-réponse entraîne des erreurs dans les estimations de l’enquête de deux façons. D’abord, les non-répondants présentent souvent des caractéristiques différentes des répondants, ce qui peut introduire des biais dans les estimations de l’enquête si l’erreur de non-réponse n’est pas corrigée adéquatement. Dans ce cas-là, plus le taux de non-réponse est élevé, plus le biais pourrait être important. Ensuite, si le taux de non-réponse est plus élevé que prévu, il réduira la taille réelle de l’échantillon. Par conséquent, la précision des estimations sera réduite (l’erreur d’échantillonnage pour les estimations augmentera). Ce deuxième aspect peut être réglé si on sélectionne dès le départ un plus gros échantillon. Cependant, le biais potentiel des estimations ne s’en trouvera pas réduit pour autant.

L’ampleur de la non-réponse varie. D’une part, il y a la non-réponse partielle, selon laquelle le répondant omet de répondre à une ou plusieurs questions, mais remplit une partie importante préétablie de l’ensemble du questionnaire. De façon générale, la portée de la non-réponse partielle est demeurée limitée dans le cadre de l’ECI en raison des essais qualitatifs importants qui ont été effectués pour chaque question et ses choix de réponses. D’autre part, il y a la non-réponse totale, selon laquelle la personne qui a été choisie pour participer à l’enquête n’a pas pu être jointe ou a refusé de participer à l’enquête après avoir été contactée. Le poids des répondants a été augmenté afin de tenir compte de l’absence de réponse, tel que décrit à la section 6.1.

Dans le but de réduire le nombre de non-réponses, on a aussi mis en œuvre de nombreuses initiatives avant et pendant la collecte des données (tel que mentionné au chapitre 4). Le site Web de Statistique Canada comprenait une page Web dédiée à l’ECI qui renfermait une série de questions et de réponses pour les répondants, ainsi que des renseignements généraux au sujet de l’enquête. Au début de la collecte des données, chaque répondant sélectionné a reçu une lettre de présentation qui donnait un aperçu de l’enquête et expliquait l’importance de participer, accompagnée d’une infographie en couleur contenant de l’information schématique sur les résultats de la dernière enquête sur l’incapacité. Un petit feuillet en braille a également été distribué à tous les répondants. Pendant la collecte, des gazouillis sur le compte Twitter de Statistique Canada et des messages contenant graphiques et informations sur Facebook ont été publiés à intervalles réguliers pour promouvoir l’ECI.

De plus, les intervieweurs ont reçu une formation poussée donnée par du personnel expérimenté de Statistique Canada. Des manuels d’intervieweur détaillés ont été fournis comme référence, en conjonction avec la formation. De plus, tous les intervieweurs étaient sous la direction d’intervieweurs principaux, qui supervisaient les activités dans les bureaux régionaux. Les intervieweurs n’ont pas ménagé leurs efforts pour joindre les non-répondants en les rappelant et en faisant des appels de suivi. Lorsque c’était possible, plus d’un numéro de téléphone était fourni pour chaque répondant sélectionné afin de maximiser les chances de joindre la personne au cours de la période de collecte. Ces numéros étaient tirés d’un appariement au plus récent fichier des numéros de téléphone résidentielsNote de Statistique Canada.

Pour les cas assignés au mode de collecte par Internet, plusieurs lettres de rappel ont été envoyées au cours de la période de collecte pour les inciter à répondre. Des courriels contenant le lien au questionnaire ainsi que le code d’accès sécurisé du répondant ont été envoyés à ceux qui préféraient remplir le questionnaire en ligne plutôt qu’au téléphone et qui fournissaient leur adresse courriel lorsqu’un interviewer les contactait. Le tableau des taux de réponse définitifs obtenus pour l’ECI de 2017 est présenté à la section 4.8 du présent guide. Le taux de réponse global pour l’enquête s’établissait à 69,5 %. Les taux de réponse étaient les plus élevés chez les personnes plus âgées, celles-ci étant plus faciles à joindre par téléphone. Environ 40 % des réponses ont été obtenues par auto-déclaration contre 60 % par entrevue téléphonique.

Erreurs de mesure

Il y a erreurs de mesure lorsque la réponse donnée est différente de la valeur réelle. Ce type d’erreur peut être attribuable au répondant, à l’intervieweur, au questionnaire, à la méthode de collecte des données ou encore au système de traitement des données.  Dans le cadre de l’ECI de 2017, on a mené un travail considérable afin d’élaborer des questions qui seraient comprises, pertinentes et sensibles aux besoins des répondants.

Plusieurs séries d’essais qualitatifs ont été menées dans le cadre de l’ECI, notamment pour tester le nouveau format électronique du questionnaire et certaines questions modifiées par rapport à 2012. Les essais qualitatifs ont été effectués par le Centre de ressources en conception de questionnaires (CRCQ) de Statistique Canada. Afin de réduire les erreurs de mesure, des modifications ont été apportées à la formulation, aux choix de réponses, au texte d’aide et à l’enchaînement des questions.

On a également pris plusieurs autres moyens afin de réduire les erreurs de mesure, notamment en ayant recours à des intervieweurs compétents, en leur donnant une formation approfondie en matière de méthodes d’enquête et de questionnaires, et en observant et en faisant un suivi de leur travail afin de cerner les problèmes liés à la conception du questionnaire ou une mauvaise interprétation des instructions.

Erreurs de traitement

On peut commettre des erreurs de traitement à différentes étapes, notamment lors de la programmation du questionnaire électronique, lors de la saisie des réponses par l’intervieweur ou par le répondant lui-même, lors du codage et lors de la vérification des données. Des procédures de contrôle de la qualité ont été appliquées à chaque étape du traitement des données, afin de réduire ce type d’erreur. Les interviews de l’ECI ont été réalisées au moyen d’un questionnaire électronique, soit administré par un intervieweur, soit rempli par auto-déclaration sur Internet. Un certain nombre de vérifications ont été intégrées au système afin d’avertir le répondant ou l’interviewer en cas d’incohérence ou de valeurs inhabituelles, permettant ainsi de corriger ces incohérences ou erreurs immédiatement (voir la section 5.7).

À l’étape du traitement des données, on s’est servi d’une série précise de procédures et de règles de vérification afin de repérer et de corriger les incohérences entre les réponses fournies. Pour chaque étape du nettoyage des données, on a mis au point un ensemble de procédures systématiques complètes afin d’évaluer la qualité de chaque variable du fichier et d’apporter des corrections si nécessaire. Un aperçu des fichiers de sortie a été établi à chaque étape, et on a procédé à une vérification en comparant les fichiers à l’étape courante et à l’étape précédente. La programmation de toutes les règles de vérification a fait l’objet d’essais avant d’être appliquée aux données. À titre d’exemples de vérification du traitement des données, mentionnons : 1) l’examen de l’enchaînement des questions (y compris les séquences très complexes) afin de vérifier si les valeurs de sauts de question avaient été correctement affectées et distinguées de différents types de valeurs manquantes;  2) une révision qualitative assidue des questions ouvertes et des réponses « Autre – Précisez » afin d’assurer un codage approprié et robuste;  3) la supervision par du personnel expérimenté des opérations de codage par rapport aux classifications types; 4) l’examen des variables dérivées par rapport aux variables de leurs composantes afin d’assurer la programmation adéquate de la logique de dérivation (y compris des dérivations très complexes). Consultez le chapitre 5 du présent guide pour en savoir davantage sur le traitement des données.


Signaler un problème sur cette page

Quelque chose ne fonctionne pas? L'information n'est plus à jour? Vous ne trouvez pas ce que vous cherchez?

S'il vous plaît contactez-nous et nous informer comment nous pouvons vous aider.

Avis de confidentialité

Date de modification :