Statistique Canada
Symbole du gouvernement du Canada

Liens de la barre de menu commune

Méthodologie

Avertissement Consulter la version la plus récente.

Information archivée dans le Web

L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

Univers de l'enquête
L'échantillon
Pondération
Représentativité transversale
Qualité des données
Erreurs non dues à l'échantillonnage (taux de réponse et imputation)
Erreurs d'échantillonnage
Erreur-type et coefficient de variation
Seuils de Suppression
Indicateurs de qualité

Univers de l'enquête

L'EDTR est une enquête menée auprès des ménages. Elles couvre toutes les personnes au Canada, à l'exclusion des résidents du Yukon, des Territoires du Nord-Ouest et du Nunavut, des pensionnaires d'un établissement institutionnel et des personnes vivant dans des réserves indiennes ou dans les casernements militaires. Dans l'ensemble, ces exclusions représentent moins de 3 % de la population.

L'échantillon

Les échantillons de l'EDTR sont sélectionnés à partir de l'Enquête sur la population active (EPA), une enquête mensuelle, ce qui fait qu'ils partagent le même plan de sondage que cette dernière. L'échantillon de l'EPA est prélevé à partir d'une base aréolaire et se fonde sur un plan stratifié à plusieurs degrés s'appuyant sur un échantillonnage probabiliste. L'échantillon total est composé de six échantillons indépendants, appelés groupes de renouvellement puisqu'un sixième de l'échantillon (soit un groupe de renouvellement) est remplacé tous les mois.

L'échantillon de l'EDTR est composé de deux panels. Chacun d'eux comprend deux groupes de renouvellement de l'EPA et couvre près de 17 000 ménages. Les membres d'un panel sont suivis pour une période de six années consécutives et un nouveau panel est introduit à tous les trois ans. Par conséquent, deux panels se chevauchent en tout temps.

Pondération

L'estimation des caractéristiques de la population à partir d'une enquête repose sur l'hypothèse selon laquelle chaque unité échantillonnée représente, en plus d'elle-même, un certain nombre d'unités non échantillonnées dans la population. Un poids d'enquête de base joint à chaque enregistrement indique le nombre d'unités dans la population qui sont représentées par cette unité dans l'échantillon.

À chaque année de référence, l'EDTR produit deux ensembles de poids : un ensemble de poids qui est représentatif de la population initiale (l'aspect longitudinal) et un autre qui est représentatif de la population actuelle (l'aspect transversal). Pour la production de poids transversaux, l'EDTR combine deux échantillons indépendants et assigne une probabilité de sélection aux individus qui se sont joints à l'échantillon après la sélection de l'échantillon initial.

Deux types de correction s'appliquent alors aux poids d'enquête de base afin d'améliorer la fiabilité des estimations. Les poids de base sont d'abord augmentés pour tenir compte de la non-réponse. Puis, ceux-ci ajustés pour la non-réponse sont à nouveau ajustés pour que les estimations sur des caractéristiques démographiques pertinentes soient conformes aux agrégats provenant de sources autres que l'enquête.

Le premier ensemble de totaux utilisés par l'EDTR est basé sur les comptes de population à l'échelle provinciale estimés par la Division de la démographie de Statistique Canada selon l'âge et le sexe, la taille du ménage et la taille de la famille économique. Ces comptes de population annuels sont basés en grande partie sur les estimations provenant du recensement de la population.

Le deuxième ensemble de totaux provient de l'information des relevés T4 de l'Agence du revenu du Canada (ARC); il permet de s'assurer que la distribution pondérée du revenu (sur la base des salaires et traitements) dans l'ensemble de données correspond à celle de la population canadienne.

L'utilisation des totaux de la population basés sur la population du Recensement de 2001 pour les années récentes et l'utilisation de l'information des relevés T4 de l'ARC ont été introduites lors de la diffusion des données de l'année 2003. Les estimations de l'enquête sur les finances des consommateurs (EFC) de 1990 à 1995 et celles de l'EDTR de 1996 à 2002 ont été révisées à la même occasion.

Représentativité transversale

Chaque échantillon longitudinal ou « panel » dans l'EDTR est au départ un échantillon transversal représentatif de la population. Cependant, parce que la population réelle varie d'une année à l'autre alors que, par définition, l'échantillon longitudinal reste le même, l'échantillon doit être ajusté de manière à bien refléter les changements dans la composition de la population. On y parvient en ajoutant à l'échantillon toutes les nouvelles personnes qui vivent avec les premiers répondants (tout en les enlevant de nouveau à des périodes subséquentes, si elles quittent le ménage). Inversement, on attribue aux premiers répondants qui quittent la population cible (en déménageant à l'étranger, en étant institutionnalisés, etc.) un poids égal à zéro aux fins de l'échantillon transversal.

Ainsi, l'échantillon transversal, composé des premiers répondants toujours dans la population cible ainsi que les personnes cohabitant avec eux est pratiquement entièrement représentatif de la population à chaque période. Le groupe manquant est composé de personnes qui viennent tout juste de s'ajouter à la population cible et qui ne vivent pas avec quelqu'un qui faisait partie de la population cible au moment de la sélection du plus récent panel. Comme l'EDTR lance un nouveau panel tous les trois ans, ce groupe est toutefois assez petit.

Qualité des données

Il y a deux genres d'erreurs inhérentes aux données de sondage : les erreurs non dues à l'échantillonnage et les erreurs d'échantillonnage. La fiabilité des estimations d'enquête repose sur l'incidence combinée des erreurs non dues à l'échantillonnage et des erreurs d'échantillonnage. Pour plus amples détails sur les indicateurs de qualité voir le document de recherche La qualité des données dans l'Enquête sur la dynamique du travail et du revenu (EDTR)

Erreurs non dues à l'échantillonnage

Les erreurs non dues à l'échantillonnage sont habituellement des erreurs humaines, comme de simples erreurs, des malentendus ou des interprétations erronées. Les erreurs aléatoires auront très peu d'effet sur un grand nombre d'observations. En revanche, les erreurs systématiques peuvent influer considérablement sur la fiabilité des estimations. Dans le cadre de l'EDTR, on consacre beaucoup de temps et d'efforts à la réduction des erreurs non dues à l'échantillonnage.

Les erreurs non dues à l'échantillonnage peuvent provenir de diverses sources telles que les erreurs de couverture, de réponse, de non-réponse et de traitement.

Il y a erreur de couverture quand les unités de la base de sondage ne représentent pas exactement la population cible. On peut avoir omis des unités de la base de sondage (sous-dénombrement), inclus des unités qui n'appartiennent pas à la population cible (sur-dénombrement) ou inclus les mêmes unités plus d'une fois (unités en double). Le problème le plus commun est celui du sous-dénombrement.

Le taux de glissement constitue une mesure de l'erreur de couverture de l'enquête. On le définit comme étant la différence en pourcentage entre les totaux de contrôle (tirés des estimations démographiques basées sur le Recensement) et les comptes pondérés de l'échantillon. Les taux de glissement dans le cas des enquêtes auprès des ménages sont habituellement positifs parce que des personnes qui devraient être dénombrées ne le sont pas. Les taux de glissement ont été révisés rétroactivement jusqu'en 1996 au moyen des estimations démographiques basées sur le Recensement de 2001. Selon les données du tableau ci-après, l'EDTR a pris en compte 85,5% de sa population cible en 2005. Pour les procédures d'estimation de l'EDTR, on utilise les estimations démographiques basées sur le Recensement pour compenser les taux de glissement déterminés.

Sur demande, vous pouvez aussi obtenir les taux pour les groupements par sexe, province et âge.

Tableau A
Taux de glissement pour l'EDTR
  1997 1998 1999 2000 2001 2002 2003 2004 2005

Canada (%)

8.4

9.0

8.4

9.5

10.6

12.4

13.4

14.2

14.5

Les erreurs de réponse peuvent être attribuables à de nombreux facteurs (un questionnaire mal conçu, une interprétation erronée des questions de la part des intervieweurs ou des répondants ou une déclaration fausse des répondants, par exemple). On s'efforce énormément de réduire l'existence de l'erreur de réponse dans l'EDTR. Parmi les mesures prises pour minimiser ce type d'erreur, mentionnons le recours à des intervieweurs hautement qualifiés et bien formés, et la supervision des intervieweurs afin de déceler une interprétation erronée des instructions ou des problèmes à l'égard du plan de questionnaire. Malgré tout, les répondants peuvent introduire une erreur s'ils ont, volontairement ou non, donné une mauvaise réponse.

Les données sur le revenu prêtent particulièrement à de fausses déclarations, vu qu'il s'agit d'une question délicate à multiples volets à l'égard de laquelle les répondants ne sont pas toujours familiers. Ainsi, avant l'interview, une lettre est envoyée par la poste aux répondants, les avisant sur les informations requises pour compléter les questions sur le revenu. Ils disposent ainsi de temps pour consulter leurs documents et avoir en main les renseignements voulus au moment de l'interview. Pour les répondants qui autorisent Statistique Canada à consulter leurs fichiers d'impôt (soit la plupart des répondants), les données de l'EDTR sur le revenu sont puisées à même les fichiers administratifs. Cette procédure minimise le nombre de fausses déclarations de revenu dans le cadre de l'EDTR.

Les erreurs de non-réponse sont présentes dans toutes les enquêtes-échantillons, car les répondants éventuels n'acceptent pas tous de collaborer pleinement. L'importance de cette erreur varie d'une non-réponse partielle à une non-réponse totale.

Une non-réponse totale est enregistrée dans le cas où l'intervieweur se trouve devant l'impossibilité de contacter le répondant, lorsqu'aucun membre du ménage n'est capable de fournir l'information recherchée, ou que le répondant refuse de participer à l'enquête.

La réponse est calculée au niveau du ménage. Un ménage est jugé être « répondant » si au moins un de ses membres a répondu à l'interview soit de janvier, soit de mai. Il a été déterminé en outre que les renseignements sur la composition du ménage ne peuvent être manquants pour plus d'un an.

La non-réponse totale au niveau du ménage est traitée en ajustant le poids de base des individus faisant partie des ménages répondants afin de compenser pour ceux faisant partie des ménages qui n'ont pas répondu.

Les membres non répondants faisant partie d'un ménage répondant (s'il y a lieu) seront imputés ou auront des valeurs manquantes dans la base de données définitive, selon la variable (pour plus de détails sur l'imputation, voir la section sur la non réponse partielle).

L'importance de cette erreur est inconnue mais de façon générale cette erreur n'est pas négligeable lorsqu'un groupe de personnes possèdent certaines caractéristiques communes refusent de participer à l'enquête et que ces caractéristiques exercent un effet déterminant sur les résultats de l'enquête. Le biais associé à la non-réponse augmente en fonction de la différence entre les caractéristiques des répondants et des non-répondants. Les méthodes employées pour compenser la non-réponse et, du coup, pour tenter de minimiser le biais s'appuient sur les renseignements disponibles à l'égard des répondants et des non-répondants.

La qualité des données de toute enquête repose sur des taux de réponse élevés. C'est pourquoi on encourage fortement les répondants à participer pleinement à l'EDTR.

Les taux de réponse transversaux au niveau ménage, présentés dans le tableau B, s'échelonnaient de 74,7 % (2004) à 86 % (1996).

Tableau B
Taux de réponse de l'EFC (1990-1995) et de l'EDTR (1996-2004)
Année Taux de réponse (%)
1990 79.0
1991 80.0
1992 80.7
1993 80.0
1994 79.5
1995 82.1
1996 86.0
1997 84.1
1998 82.7
1999 82.7
2000 79.2
2001 79.1
2002 79.0
2003 78.3
2004 74.7
2005 76.1

La non-réponse partielle à l'enquête survient lorsque le répondant ne comprend pas la question ou l'interprète mal, refuse d'y répondre, ou encore n'arrive pas à se souvenir des renseignements demandés. Ce type de non-réponse est compensé en imputant les valeurs manquantes.

On impute les données en s'appuyant d'abord sur les données de l'année précédente, mises à jour selon les circonstances. Ce n'est qu'en l'absence de données de l'année précédente que les données sont imputées selon la méthode du « plus proche voisin ». Cette méthode consiste à identifier une autre personne ayant des caractéristiques comparables à la personne qui n'a pas répondu aux questions. La valeur imputée est tirée de l'enregistrement de la personne semblable dite « répondant-donneur ».

Certaines sommes reçues dans le cadre de programmes gouvernementaux, comme les prestations fiscales pour enfants, le crédit pour la taxe sur les produits et services ou taxe de vente harmonisée, et le supplément de revenu garanti, sont calculées à partir d'autres renseignements. Les données obtenues à partir des fichiers d'impôt sont complètes et ne nécessitent pas d'imputation.

Les erreurs de traitement peuvent se produire à divers stades de l'enquête : la saisie, la vérification, la codification, la pondération ou la mise en tableaux des données. La méthode de collecte assistée par ordinateur dont on se sert dans l'EDTR réduit les risques d'erreurs de saisie parce que le logiciel fait des contrôles de cohérence et d'exhaustivité des données. Pour minimiser les erreurs de codification, de pondération ou de mise en tableaux, on effectue périodiquement des tests de diagnostic. Ces tests comprennent des comparaisons des résultats avec d'autres sources de données.

Erreurs d'échantillonnage

Des erreurs d'échantillonnage surviennent parce que l'on tire des conclusions pour l'ensemble de la population à partir de renseignements obtenues auprès de seulement un échantillon de la population. Les résultats ainsi obtenus peuvent différer de ceux que l'on obtiendrait si les renseignements avaient été recueillis auprès de l'ensemble de la population. Les erreurs attribuables à l'élargissement du champ d'application des conclusions d'après l'échantillon à l'ensemble de la population sont appelées erreurs d'échantillonnage. Le plan de sondage, la variabilité des caractéristiques de la population que l'enquête mesure, de même que la taille de l'échantillon détermine l'ampleur de l'erreur d'échantillonnage. De plus, pour un plan de sondage donné, l'importance de l'erreur d'échantillonnage variera selon les méthodes d'estimation employées.

Erreur-type et coefficient de variation

Une mesure commune de l'erreur d'échantillonnage est l'erreur-type (ET). Celle-ci mesure le degré de variation des estimations selon qu'on sélectionne un échantillon donné plutôt qu'un autre de même taille et ayant un plan de sondage identique. L'erreur-type sert également à calculer les intervalles de confiance associés à une estimation (Y). Les intervalles de confiance servent à exprimer la précision de l'estimation. Il a été prouvé mathématiquement que, si l'échantillonnage était répété plusieurs fois, la valeur de la population réelle s'inscrirait dans l'intervalle de confiance Y ± 2ET 95 fois sur 100 et dans l'intervalle de confiance plus restreint défini par Y ± ET, 68 fois sur 100. Une autre mesure importante de l'erreur d'échantillonnage est le coefficient de variation, calculé comme la valeur en pourcentage de l'erreur type sur l'estimation Y (c'est-à-dire 100 × ET / Y).

L'exemple suivant illustre les rapports entre l'erreur-type, les intervalles de confiance et le coefficient de variation. Supposons que le revenu moyen estimé d'une source donnée est de 10 000 $ et que l'erreur-type correspondante est de 200 $. Le coefficient de variation est donc égal à 2 %. L'intervalle de confiance de 95 % estimé à partir de cet échantillon varie entre 9 600 $ et 10 400 $, c'est-à-dire, 10 000 $ ± 400 $. Cela signifie qu'avec un degré de confiance de 95 %, on peut affirmer que le revenu moyen de la population cible se situe entre 9 600 $ et 10 400 $.

Les erreurs types correspondant aux estimations sont calculées selon la méthode « bootstrap ». Pour en savoir plus sur les erreurs-types et les coefficients de variation, veuillez consulter la publication de Statistique Canada intitulée Méthodologie de l'Enquête sur la population active du Canada

Indicateurs de qualité

Les indicateurs de qualité (DQ) sont disponibles principalement pour 2004, à l'exception de quelques tableaux longitudinaux, et sont basés sur le coefficient de variation (CV) et les seuils de suppression. Les signes conventionnels suivants sont employés :

Tableau D
Règles de qualité
Estimations pour: Code DQ Description
Année la plus récente A Excellente (CV entre 0 et 2%)
B Très bonne (CV entre 2% et 4%)
C Bonne (CV entre 4% et 8%)
D Acceptable (CV entre 8% et 16%)
E À utiliser avec prudence (CV plus grand ou égal à 16%)
Toutes les années F Trop peu fiable pour être publié
. Indisponible pour toute période de référence
.. Indisponible pour une période de référence précise
... N'ayant pas lieu de figurer
p Préliminaire
r Rectifié
x Confidentiel en vertu des dispositions de la Loi sur la statistique

Seuils de suppression

Les seuils de suppression ou seuils de qualité, sont établis en fonction de la taille d'échantillon sous-jacente à l'estimation calculée. De façon générale, on requiert un minimum de 25 observations pour que l'estimation puisse être publiée. Par contre, ceci peut varier selon le type d'estimation. Les règles de suppression sont appliquées dans le but de préserver la confidentialité des répondants de l'enquête et pour assurer la qualité des estimations publiées.

Tableau C
Seuils de suppression
Type d'estimation SUPPRIMER SI:
Pourcentages, distributions, proportions/parts :
  • % sous le seuil de faible revenu (LICO)
  • Distribution du revenu
  • Proportion des familles ayant un revenu =0
Taille d'échantillon au dénominateur* < 25
ou
Taille d'échantillon au dénominateur* < 100 et taille d'échantillon au numérateur < 5
Ratios:
  • Salaire femmes/hommes
Taille d'échantllion au numérateur < 25
ou
taille d'échantillon au dénominateur < 25
Quintiles (parts, moyennes et limites supérieures)
  • Parts du revenu par quintile
  • Revenu moyen par quintile
  • Limites supérieures du revenu
Taille d'échantillon dans le quintile /5 < 25
ou
Limite supérieure du revenu pour le quintile supérieur ou pour le total des quintiles
Autres type d'estimation
  • Comptes
  • Moyenne
  • Médianes
  • Coefficients Gini
Taille d'échantillon < 25

*La taille d'échantillon au dénominateur correspond à la taille d'échantillon de l'estimation totale de laquelle la distribution, le pourcentage, la proportion ou la part est dérivée.