Statistique Canada
Symbole du gouvernement du Canada

Liens de la barre de menu commune

5.0 Exactitude et qualité des données

Avertissement Consulter la version la plus récente.

Information archivée dans le Web

L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

5.1 Erreurs d’échantillonnage

Il y a une erreur d’échantillonnage lorsqu’on estime une caractéristique de la population en étudiant seulement une partie de la population au lieu de la population au complet. Il s’agit de la différence entre l’estimation calculée à partir d’une enquête par sondage et la « vraie » valeur qui aurait été obtenue si un recensement auprès de la population entière avait été effectué dans les mêmes conditions. Dans un recensement, il n’y a pas d’erreur d’échantillonnage étant donné que les calculs sont basés sur la population au complet.

5.2 Erreur type, intervalles de confiance et coefficient de variation

Une mesure commune de l’erreur d’échantillonnage est l’erreur type (ET). L’erreur type mesure les degrés de variation dans les estimations selon qu’un échantillon donné est sélectionné plutôt qu’un autre de même taille et ayant un plan de sondage identique. L’erreur type sert également à calculer les intervalles de confiance associés à une estimation (Y).

Les intervalles de confiance (IC) servent à exprimer la précision de l’estimation. Il a été prouvé mathématiquement que, si l’échantillonnage était répété plusieurs fois, la valeur de la population réelle s’inscrirait dans l’intervalle de confiance Y +/- 2ET 95 fois sur 100 et dans l’intervalle de confiance plus restreint défini par Y +/- ET, 68 fois sur 100.

Une autre mesure importante de l’erreur d’échantillonnage est le coefficient de variation (CV), qui correspond à l’erreur type d’une estimation, exprimée comme un ratio ou un pourcentage de l’estimation (c.-à-d. 100 x ET / Y).

L’exemple suivant illustre les rapports entre l’erreur type, les intervalles de confiance et le coefficient de variation. Supposons que le revenu médian estimé d’une source donnée est de 10 000 $ et que l’erreur type correspondante est de 200 $. Le coefficient de variation est donc égal à 2 %. L’intervalle de confiance de 95 % estimé à partir de cet échantillon varie de 9 600 $ à 10 400 $, c’est-à-dire, 10 000 $ +/-400 $. Cela signifie qu’avec un degré de confiance de 95 %, on peut affirmer que le revenu médian de la population cible se situe entre 9 600 $ et 10 400 $.

Les estimations dont le coefficient de variation est inférieur à 16,6 % sont considérées fiables et peuvent être utilisées. Les estimations dont le coefficient de variation se situe entre 16,6 % et 33,3 % doivent être accompagnées d’un avertissement mettant en garde les utilisateurs contre les taux d’erreur élevés. Les estimations dont les coefficients de variation sont supérieurs à 33,3 % sont réputées ne pas être fiables. Pour les valeurs nettes estimées à partir de cette enquête, un coefficient de variation supérieur à 33,3 % survient généralement pour une estimation dérivée d’un échantillon dont la taille est inférieure à 25. Cela a une incidence sur le niveau de détail des tableaux et, plus particulièrement, limite la disponibilité de statistiques provinciales.

Le tableau 5-1 donne des lignes directrices de Statistique Canada au sujet des niveaux de qualité.

Le tableau 5-2 indique la précision des estimations de l’ESF. À l'échelle du Canada, les estimations sont généralement fiables. Toutefois, les utilisateurs doivent faire preuve de circonspection lorsqu'ils produisent des estimations détaillées au niveau régional.

On peut obtenir de Statistique Canada, contre recouvrement des coûts, des estimations supplémentaires de la variance.

La méthode bootstrap, une méthode de pseudo-reproduction, sert à calculer les coefficients de variation des estimations présentées dans le tableau 5-2. Bon nombre d'enquêtes de Statistique Canada s'appuient sur des plans d'échantillonnage complexes pour sélectionner les échantillons. Étant donné que l’estimation de la variance de ces plans de sondage ne peut s'effectuer au moyen de formules simples, nous devons utiliser des méthodes approximatives pour estimer les variances. Les méthodes de rééchantillonnage, surtout la méthode bootstrap, en sont des exemples. La méthode bootstrap, qui comporte de nombreuses caractéristiques intéressantes, est celle que préconisent de nombreuses enquêtes de Statistique Canada.

Pour en savoir davantage au sujet de la méthode bootstrap, veuillez consulter la publication de Statistique Canada (no 12-002-XIF au catalogue) intitulée Centres de données de recherche : Bulletin technique et d'information, automne 2004, vol. 1 no 2.

5.3 Erreurs non dues à l’échantillonnage

Les erreurs non dues à l’échantillonnage peuvent être définies comme les erreurs pouvant survenir tout au long des activités d’enquête, mis à part l’échantillonnage. Comparativement aux erreurs d’échantillonnage, les erreurs non dues à l’échantillonnage peuvent se retrouver dans les enquêtes par sondage et les recensements.

Les erreurs non dues à l’échantillonnage peuvent être classées en deux groupes : les erreurs aléatoires et les erreurs systématiques.

  • Les erreurs aléatoires sont imprévisibles et découlent de l’estimation. Elles sont généralement éliminées si un échantillon suffisamment grand est utilisé. Toutefois, lorsque ces erreurs surviennent, elles entraînent souvent une variabilité accrue de la caractéristique d’intérêt (c.-à-d. plus grande est la différence entre les unités de population, plus grande sera la taille de l’échantillon nécessaire pour atteindre un certain niveau de fiabilité).

  • Les erreurs systématiques ont tendance à s’accumuler dans tout l’échantillon. Par exemple, une erreur dans la conception du questionnaire peut entraîner des problèmes relativement aux réponses du répondant, qui peuvent à leur tour donner lieu à des erreurs de traitement, etc. Ces types d’erreurs donnent souvent des résultats finals biaisés.

Les erreurs non dues à l’échantillonnage sont extrêmement difficiles sinon impossibles à mesurer. Étant donné que les erreurs aléatoires ont tendance à s’éliminer, les erreurs systématiques représentent la principale cause d’inquiétude. Comparativement à la variance d’échantillonnage, le biais causé par les erreurs systématiques ne diminue pas malgré l’augmentation de la taille de l’échantillon. Les erreurs non dues à l’échantillonnage peuvent survenir en raison de problèmes de couverture, de réponse, de non-réponse, de traitement des données, d’estimation et d’analyse.

5.3.1 Erreurs de couverture

Une erreur de couverture survient lorsqu’il y a une omission, une répétition ou un ajout erroné des unités dans la population ou l’échantillon. Les omissions sont appelées sous-dénombrement, tandis que les répétitions et les ajouts erronés sont appelés surdénombrement. Ces erreurs sont causées par des défauts dans la base de sondage : inexactitude, insuffisance de données, répétition, données inadéquates et obsolescence. Les erreurs de couverture peuvent également survenir dans les procédures sur place (p. ex., une enquête est menée, mais l’intervieweur oublie plusieurs ménages ou personnes).

5.3.2 Erreurs de réponse

Les erreurs de réponse résultent des données qui ont été demandées, fournies, reçues ou enregistrées de façon erronée. Les erreurs de réponse peuvent survenir en raison des inefficacités relativement au questionnaire, à l’intervieweur, au répondant ou au processus d’enquête.

Conception médiocre du questionnaire
Il est essentiel que les questions de l’enquête par sondage ou du recensement soient soigneusement formulées de façon à éviter un biais. Si les questions induisent en erreur ou portent à confusion, alors les réponses peuvent être faussées.

Biais d’interview
Un intervieweur peut avoir de l’influence sur la façon dont un répondant répond aux questions d’une enquête. Cette influence peut se produire lorsque l’intervieweur est trop amical ou distant à l’égard du répondant, ou lorsqu’il pousse le répondant à répondre. Afin de prévenir ce genre de situation, les intervieweurs doivent avoir reçu une formation pour pouvoir rester neutres tout au long de l’interview. Ils doivent également faire très attention à la façon dont ils posent chaque question. Si un intervieweur change la formulation d’une question, cela peut avoir une incidence sur la réponse du répondant.

Erreurs du répondant
Les répondants peuvent aussi donner de mauvaises réponses. Des souvenirs fautifs, la tendance à exagérer des événements ou à en minimiser l’importance, et la tendance à donner des réponses qui semblent plus « souhaitables sur le plan social » sont autant de raisons pour lesquelles un répondant peut donner une mauvaise réponse.

Problèmes relatifs au processus d’enquête
Des erreurs peuvent également survenir en raison d’un problème lié au processus d’enquête en tant que tel. L’utilisation de réponses par procuration (obtention des réponses d’une personne autre que le répondant) ou le manque de contrôle sur les procédures d’enquête ne sont que quelques façons d’augmenter la possibilité d’erreurs de réponse.

5.3.3 Erreurs dues à la non-réponse

Les erreurs de non-réponse se produisent lorsque le répondant n’a pas donné suffisamment de réponses aux questions de l’enquête. Il y a deux types d’erreurs de non-réponse : les erreurs de non-réponse complète et partielle. Le taux de réponse global de l’Enquête sur la sécurité financière de 2005 était de 67,7 %.

Erreurs de non-réponse complète
Ces erreurs peuvent se produire lorsque l’enquête ne mesure pas certaines unités de l’échantillon sélectionné. Elles peuvent s’expliquer par le fait que le répondant n’est pas disponible ou est temporairement absent, qu’il est incapable ou qu’il refuse de participer à l’enquête, ou que le logement est vacant. Si un nombre important de personnes ne répondent pas à une enquête, alors les résultats peuvent être biaisés, étant donné que les caractéristiques des non-répondants peuvent différer des caractéristiques de ceux qui ont participé.

Erreurs de non-réponse partielle
Ce type d’erreur se produit lorsque l’information obtenue du répondant est incomplète. Pour certaines personnes, certaines questions peuvent être difficiles à comprendre. Afin de réduire cette forme de biais, il faudrait porter une attention particulière au moment de concevoir et de mettre à l’essai les questionnaires. Des stratégies de vérification et d’imputation appropriées contribueront également à atténuer ce biais.

5.3.4 Erreurs de traitement

Les erreurs de traitement se produisent parfois pendant la préparation des fichiers de données définitifs. Par exemple, des erreurs peuvent survenir lorsque les données sont codées, saisies, corrigées ou imputées. Le biais du codeur est habituellement le résultat d’une formation insuffisante ou d’instructions incomplètes, d’une variance du rendement du codeur (c.-à-d. fatigue, maladie), d’erreurs d’entrées de données ou d’un mauvais fonctionnement de l’ordinateur (certaines erreurs de traitement sont causées par des erreurs dans les programmes informatiques). On peut dire la même chose au sujet des erreurs saisies. Parfois, des erreurs sont déterminées à tort au cours de l’étape de la vérification. Même lorsque des erreurs sont découvertes, elles peuvent être corrigées incorrectement en raison de mauvaises procédures d’imputation. Pour atténuer les erreurs, on effectue périodiquement des tests de diagnostic pour s’assurer que les résultats voulus sont obtenus.

5.3.5 Erreurs d’estimation

Statistique Canada et d’autres organismes de collecte de données consacrent beaucoup d’efforts à la conception et au suivi des enquêtes afin que ces dernières comportent le moins d’erreurs possible. Si une méthode d’estimation inappropriée est utilisée, le biais peut persister, même si l’enquête était sans erreur avant l’estimation.

5.3.6 Erreur d’analyse

Les erreurs d’analyse comprennent toutes les erreurs qui se produisent lorsqu’on utilise les mauvais outils d’analyse ou lorsque les résultats provisoires sont utilisés au lieu des résultats définitifs. Les erreurs qui se produisent pendant la publication de ces résultats sont également considérées comme des erreurs d’analyse.

5.4 Traitement des grandes valeurs

Pour tout échantillon, la présence ou l’absence de valeurs extrêmes tirées de la population peut influer sur les estimations de manière disproportionnée. Dans une enquête sur les avoirs et les dettes, on s’attend à ce qu’il y ait quelques valeurs extrêmes dans l’échantillon, comme il existe dans la population des valeurs extrêmes valides. On a défini et examiné les valeurs à l’extérieur des limites définies par rapport aux autres renseignements déclarés à l’égard du répondant. Quand on a jugé que la valeur était attribuable à une erreur de déclaration ou de traitement, on l’a ajustée. Autrement, on l’a retenue.

5.5 Incidence des erreurs d’échantillonnage et des erreurs non dues à l’échantillonnage sur les estimations de l’ESF

Compte tenu de l’effet combiné de ces erreurs, la qualité des données sur la valeur nette est jugée inférieure à la qualité des données sur le revenu. Cette situation est principalement attribuable au fait qu’on n’a pas aussi facilement accès aux enregistrements de la valeur actuelle des avoirs et du montant des dettes impayées qu’aux dossiers sur le revenu. Les répondants, par exemple, qui ont divers comptes en banque et placements peuvent recevoir plusieurs relevés différents pour des périodes de référence différentes. Il peut s’avérer difficile de compiler l’information, alors que la plupart des renseignements sur le revenu, en revanche, se trouvent dans un seul document, si le répondant a rempli une déclaration de revenus pour l’année en question.

5.6 Comparabilité des données et sources connexes

Il est important de reconnaître qu’il n’existe aucune autre source pour la plupart des données recueillies par l’ESF. Dans le cas des variables pour lesquelles d’autres sources existent, il est souvent difficile de faire des comparaisons à cause des différences de concepts, de regroupement et d’évaluation d’items.

Les comparaisons directes avec des sources externes, comme les comptes du bilan national (CBN) du Système de comptabilité nationale (SCN), entraînent certaines différences. Il est difficile de comparer ces deux sources en raison des différences au niveau des définitions, de la couverture et du traitement.

En fonction des comparaisons approximatives entre les CBN et l’ESF, ont peut tirer les conclusions générales suivantes :

  1. L’ESF semble sous-estimer certaines des composantes liées à la valeur nette, en particulier les avoirs financiers et les dettes à la consommation.
  2. La qualité des estimations des actifs réels (p. ex., les résidences occupées par le propriétaire et les véhicules) est nettement supérieure à la qualité des avoirs financiers.

En théorie, avec les mêmes procédures d’évaluation et de regroupement, les données provenant du SCN devraient être les mêmes que celles recueillies par une enquête sur les avoirs et les dettes. Le SCN recueille de l’information sur le patrimoine des particuliers provenant de sources institutionnelles telles que des banques et compagnies d’assurances, moins les compagnies et les administrations publiques. La catégorisation des particuliers et des entreprises non constituées en sociétés est l’un des principaux problèmes du SCN. Étant donné que les données sur les particuliers et sur les entreprises non constituées en sociétés ne peuvent être séparées les unes des autres, ces estimations seront toujours plus élevées que les estimations provenant de l’enquête.

Le recensement, ainsi que d’autres enquêtes, sont d’importantes sources permettant d’assurer que l’échantillon de l’ESF est représentatif de la population canadienne. Bien qu’il existe des différences conceptuelles avec les estimations provenant du SCN, il est très important d’assurer la validité des données en ayant un échantillon représentatif. Pour les variables représentant les caractéristiques reliées au sexe, à l’âge, à l’état matrimonial et à la scolarité, on a démontré que les données de l’ESF de 2005 étaient très comparables aux données du Recensement de 2001. On a constaté que les estimations de l’ESF pour les variables reliées aux pensions, telles que les cotisations et les adhésions, étaient très semblables aux données de l’Enquête sur les régimes de pensions au Canada de Statistique Canada.

5.7 Taux de réponse

Le taux de réponse global de l’Enquête sur la sécurité financière de 2005 était de 67,7 %. Le tableau 5-3 présente la répartition des taux de réponse par province pour l’échantillon aréolaire et l’échantillon des familles à revenu élevé.