Publications
Enquête sur la dynamique du travail et du revenu – un aperçu de l'enquête 2010
Produits connexes
Méthodologie
Consulter la version la plus récente.
Information archivée dans le Web
L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.
Univers de l'enquête
L'échantillon
Pondération
Représentativité transversale
Qualité des données
Erreurs non dues à l'échantillonnage (taux de réponse et imputation)
Erreurs d'échantillonnage
Erreur-type et coefficient de variation
Indicateurs de qualité
Seuils de suppression
Univers de l'enquête
L'EDTR est une enquête menée auprès des ménages. Elle couvre toutes les personnes au Canada, à l'exclusion des résidents du Yukon, des Territoires du Nord-Ouest et du Nunavut, des pensionnaires d'un établissement institutionnel et des personnes vivant dans des réserves indiennes ou dans les casernes militaires. Dans l'ensemble, ces exclusions représentent moins de 3 % de la population.
L'échantillon
Les échantillons de l'EDTR sont sélectionnés à partir de l'Enquête sur la population active (EPA), une enquête mensuelle, ce qui fait qu'ils partagent le même plan de sondage que cette dernière. L'échantillon de l'EPA est prélevé à partir d'une base aréolaire et se fonde sur un plan stratifié à plusieurs degrés s'appuyant sur un échantillonnage probabiliste. L'échantillon total est composé de six échantillons indépendants, appelés groupes de renouvellement puisqu'un sixième de l'échantillon (soit un groupe de renouvellement) est remplacé tous les mois. Pour plus d'information sur le plan de sondage de l'EPA voir la publication de Statistique Canada intitulée Méthodologie de l'Enquête sur la population active du Canada.
L'échantillon de l'EDTR est composé de deux panels. Chacun d'eux comprend deux groupes de renouvellement de l'EPA et couvre près de 17 000 ménages. Les membres d'un panel sont suivis pour une période de six années consécutives et un nouveau panel est introduit à tous les trois ans. Par conséquent, deux panels se chevauchent en tout temps. Pour l'année de référence 2008, un nouveau panel (panel 6) a été sélectionné. C'est le premier panel de l'EDTR qui a été sélectionné à partir du nouveau plan de sondage de l'EPA introduit à la fin de 2004. Les panels 3 à 5 de l'EDTR ont été sélectionnés à partir du plan de sondage de l'EPA de 1994 et les panels 1 et 2, à partir du plan de 1984.
Pour les années de référence 1993 à 1997, l'échantillon transversal de l'EDTR a été combiné avec l'échantillon de l'Enquête sur les finances des consommateurs (EFC). Les échantillons de l'EFC étaient aussi sélectionnés à partir de l'EPA. Chaque année, l'échantillon de l'EFC était composé de quatre groupes de renouvellement de l'EPA.
Pondération
L'estimation des caractéristiques de la population à partir d'une enquête repose sur l'hypothèse selon laquelle chaque unité échantillonnée représente, en plus d'elle-même, un certain nombre d'unités non échantillonnées dans la population. Un poids d'enquête de base joint à chaque enregistrement indique le nombre d'unités dans la population qui sont représentées par cette unité dans l'échantillon.
À chaque année de référence, l'EDTR produit deux ensembles de poids : un ensemble de poids qui est représentatif de la population initiale (l'aspect longitudinal) et un autre qui est représentatif de la population actuelle (l'aspect transversal).
Pour la production de poids longitudinaux, trois types de correction s'appliquent aux poids d'enquête de base afin d'améliorer la fiabilité des estimations. Les poids de base sont d'abord augmentés pour tenir compte de la non-réponse et ensuite ajustés pour les valeurs influentes. Puis, ceux-ci sont à nouveau ajustés pour que les estimations sur des caractéristiques démographiques pertinentes soient conformes aux agrégats provenant de sources autres que l'enquête.
Le premier ensemble de totaux utilisé par l'EDTR est basé sur les comptes de population à l'échelle provinciale estimés par la Division de la démographie de Statistique Canada selon l'âge et le sexe, la taille du ménage et la taille de la famille économique. Ces comptes de population annuels sont basés en grande partie sur les estimations provenant du recensement de la population.
Le deuxième ensemble de totaux provient de l'information des relevés T4 de l'Agence du revenu du Canada (ARC); il permet de s'assurer que la distribution pondérée du revenu (sur la base des salaires et traitements) dans l'ensemble de données correspond à celle de la population canadienne.
L'utilisation des totaux de la population basés sur la population du Recensement de 2001 pour les années récentes et l'utilisation de l'information des relevés T4 de l'ARC ont été introduites lors de la diffusion des données de l'année 2003. Les estimations de l'enquête sur les finances des consommateurs (EFC) de 1990 à 1995 et celles de l'EDTR de 1996 à 2002 ont été révisées par la même occasion.
Pour la production de poids transversaux, l'EDTR combine deux panels et assigne une probabilité de sélection aux individus qui se sont joints à l'échantillon après la sélection de l'échantillon initial. Les poids transversaux, tout comme les poids longitudinaux, sont ajustés pour la non-réponse et les valeurs influentes. De plus, les poids transversaux sont ajustés afin que les estimations sur des caractéristiques de la population se conforment aux agrégats provenant de sources autres que l'enquête. Les types de totaux de la population sont les mêmes que ceux utilisés pour les poids longitudinaux, mais ils correspondent à la population transversale.
Depuis 2002, un troisième ensemble de poids qui combine les deux panels qui se chevauchent a été produit. Les poids s'appellent les poids longitudinaux avec panels combinés. Ces poids permettent aux utilisateurs de données de l'EDTR de faire des analyses à partir des individus des deux panels. Les analyses, cependant, sont limitées à une période d'au plus trois années de chevauchement des panels et s'appliquent à la population au moment de la sélection du panel le plus récent.
Pour une description plus détaillée du processus de la pondération, voir la publication Pondérations longitudinale et transversale de l'Enquête sur la dynamique du travail et du revenu. Pour une description des poids longitudinaux avec panels combinés voir la publication Pondération longitudinale avec panels combinés : Enquête sur la dynamique du travail et du revenu.
Représentativité transversale
Chaque échantillon longitudinal ou « panel » dans l'EDTR est au départ un échantillon transversal représentatif de la population. Cependant, parce que la population réelle varie d'une année à l'autre alors que, par définition, l'échantillon longitudinal reste le même, l'échantillon doit être ajusté de manière à bien refléter les changements dans la composition de la population. On y parvient en ajoutant à l'échantillon toutes les nouvelles personnes qui vivent avec les premiers répondants (tout en les enlevant de nouveau à des périodes subséquentes, si elles quittent le ménage). Inversement, on attribue aux premiers répondants qui quittent la population cible (en déménageant à l'étranger, en étant institutionnalisés, etc.) un poids égal à zéro aux fins de l'échantillon transversal.
Ainsi, l'échantillon transversal, composé des premiers répondants toujours dans la population cible ainsi que des personnes cohabitant avec eux, est pratiquement entièrement représentatif de la population à chaque période. Le groupe manquant est composé de personnes qui viennent tout juste de s'ajouter à la population cible et qui ne vivent pas avec quelqu'un qui faisait partie de la population cible au moment de la sélection du plus récent panel. Comme l'EDTR lance un nouveau panel tous les trois ans, ce groupe est toutefois assez petit.
Qualité des données
Il y a deux genres d'erreurs inhérentes aux données de sondage : les erreurs non dues à l'échantillonnage et les erreurs d'échantillonnage. La fiabilité des estimations d'enquête repose sur l'incidence combinée des erreurs non dues à l'échantillonnage et des erreurs d'échantillonnage. Pour de plus amples détails sur les indicateurs de qualité, voir le document de recherche La qualité des données dans l'Enquête sur la dynamique du travail et du revenu (EDTR).
Erreurs non dues à l'échantillonnage
Les erreurs non dues à l'échantillonnage sont habituellement des erreurs humaines, comme de simples erreurs, des malentendus ou des interprétations erronées. Les erreurs aléatoires auront très peu d'effet sur un grand nombre d'observations. En revanche, les erreurs systématiques peuvent influer considérablement sur la fiabilité des estimations. Dans le cadre de l'EDTR, on consacre beaucoup de temps et d'efforts à la réduction des erreurs non dues à l'échantillonnage.
Les erreurs non dues à l'échantillonnage peuvent provenir de diverses sources telles que les erreurs de couverture, de réponse, de non-réponse et de traitement.
Il y a erreur de couverture quand les unités de la base de sondage ne représentent pas exactement la population cible. On peut avoir omis des unités de la base de sondage (sous-dénombrement), inclus des unités qui n'appartiennent pas à la population cible (sur-dénombrement) ou inclus les mêmes unités plus d'une fois (unités en double). Le problème le plus commun est celui du sous-dénombrement.
Le taux de glissement constitue une mesure de l'erreur de couverture de l'enquête. On le définit comme étant la différence en pourcentage entre les totaux de contrôle (tirés des estimations démographiques basées sur le Recensement) et les comptes pondérés de l'échantillon. Les taux de glissement dans le cas des enquêtes auprès des ménages sont habituellement positifs parce que des personnes qui devraient être dénombrées ne le sont pas. Dans le tableau A plus bas, les taux de glissement de 1997 à 2005, ont été calculés en se basant sur les estimations démographiques utilisant les données du Recensement de 2001 tandis que pour les années 2006 à 2010, les taux de glissement sont basés sur les projections démographiques du Recensement de 2006. Selon les données du tableau ci-après, l'EDTR a pris en compte 86,5% de sa population cible en 2010. Pour les procédures d'estimation de l'EDTR, on utilise les estimations démographiques basées sur le Recensement pour compenser les taux de glissement déterminés.
Sur demande, vous pouvez aussi obtenir les taux pour les groupements par sexe, province et âge.
Tableau A
Taux de glissement au niveau des personnes pour l'EDTR
1997 | 1998 | 1999 | 2000 | 2001 | 2002 | 2003 | 2004 | 2005 | 2006 | 2007 | 2008 | 2009 | 2010 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Canada (%) | 8,4 | 9,0 | 8,4 | 9,5 | 10,6 | 12,4 | 13,4 | 14,2 | 14,5 | 16,0 | 16,3 | 13,3 | 13,0 | 13,5 |
Les erreurs de réponse peuvent être attribuables à de nombreux facteurs (un questionnaire mal conçu, une interprétation erronée des questions de la part des intervieweurs ou des répondants ou une déclaration fausse des répondants, par exemple). On s'efforce énormément de réduire l'existence de l'erreur de réponse dans l'EDTR. Parmi les mesures prises pour minimiser ce type d'erreur, mentionnons le recours à des intervieweurs hautement qualifiés et bien formés, et la supervision des intervieweurs afin de déceler une interprétation erronée des instructions ou des problèmes à l'égard du plan de questionnaire. Malgré tout, les répondants peuvent introduire une erreur s'ils ont, volontairement ou non, donné une mauvaise réponse.
Les données sur le revenu se prêtent particulièrement à de fausses déclarations, vu qu'il s'agit d'une question délicate à multiples volets à l'égard de laquelle les répondants ne sont pas toujours familiers. Afin de minimiser le fardeau de réponse et les erreurs de données, les répondants ont la possibilité d'autoriser Statistique Canada à consulter leurs fichiers d'impôt. La majorité des répondants donnent leur autorisation, ce qui permet à l'EDTR de puiser ses données sur le revenu à même les fichiers administratifs.
Les erreurs de non-réponse sont présentes dans toutes les enquêtes-échantillons, car les répondants éventuels n'acceptent pas tous de collaborer pleinement. L'importance de cette erreur varie d'une non-réponse partielle à une non-réponse totale.
Une non-réponse totale est enregistrée dans le cas où l'intervieweur se trouve devant l'impossibilité de contacter le répondant, lorsqu'aucun membre du ménage n'est capable de fournir l'information recherchée, ou que le répondant refuse de participer à l'enquête.
La réponse est calculée au niveau du ménage. Un ménage est jugé être « répondant » si au moins un de ses membres a répondu à l'interview. Il a été déterminé en outre que les renseignements sur la composition du ménage ne peuvent être manquants pour plus d'un an.
La non-réponse totale au niveau du ménage est traitée en ajustant le poids de base des individus faisant partie des ménages répondants afin de compenser pour ceux faisant partie des ménages qui n'ont pas répondu.
À l'intérieur d'un ménage répondant, les données des membres non répondants (s'il y a lieu) seront imputées ou auront des valeurs manquantes dans la base de données finale, selon la variable (pour plus de détails sur l'imputation, voir la section sur la non-réponse partielle).
L'importance de cette erreur est inconnue mais de façon générale cette erreur n'est pas négligeable lorsqu'un groupe de personnes possédant certaines caractéristiques communes refusent de participer à l'enquête et que ces caractéristiques exercent un effet déterminant sur les résultats de l'enquête. Le biais associé à la non-réponse augmente en fonction de la différence entre les caractéristiques des répondants et des non-répondants. Les méthodes employées pour compenser la non-réponse et, du coup, pour tenter de minimiser le biais s'appuient sur les renseignements disponibles à l'égard des répondants et des non-répondants.
La qualité des données de toute enquête repose sur des taux de réponse élevés. C'est pourquoi on encourage fortement les répondants à participer pleinement à l'EDTR.
Les taux de réponse transversaux au niveau ménage, présentés dans le tableau B, s'échelonnent de 85,9% (1996) à 67,3% (2010).
Tableau B
Taux de réponse de l'EFC (1990-1992), EFC-EDTR combinées (1993-1997) et de l'EDTR (1998-2008)
Année | Taux de réponse (%) |
---|---|
1990 | 79,0 |
1991 | 80,0 |
1992 | 80,7 |
1993 | 84,2 |
1994 | 82,6 |
1995 | 83,3 |
1996 | 85,9 |
1997 | 83,9 |
1998 | 82,7 |
1999 | 82,7 |
2000 | 79,2 |
2001 | 79,1 |
2002 | 79,0 |
2003 | 78,3 |
2004 | 74,7 |
2005 | 76,1 |
2006 | 74,9 |
2007 | 71,8 |
2008 | 70,6 |
2009 | 70,1 |
2010 | 67,3 |
La non-réponse partielle à l'enquête survient lorsque le répondant ne comprend pas la question ou l'interprète mal, refuse d'y répondre, ou encore n'arrive pas à se souvenir des renseignements demandés. Ce type de non-réponse est compensé en imputant les valeurs manquantes.
On impute les données en s'appuyant d'abord sur les données de l'année précédente, mises à jour selon les circonstances. Ce n'est qu'en l'absence de données de l'année précédente que les données sont imputées selon la méthode du « plus proche voisin ». Cette méthode consiste à identifier une autre personne ayant des caractéristiques comparables à la personne qui n'a pas répondu aux questions. La valeur imputée est tirée de l'enregistrement de la personne semblable dite « répondant-donneur ».
Certaines sommes reçues dans le cadre de programmes gouvernementaux, comme les prestations fiscales pour enfants, le crédit pour la taxe sur les produits et services ou taxe de vente harmonisée, et le supplément de revenu garanti, sont calculées à partir d'autres renseignements.
Les erreurs de traitement peuvent se produire à divers stades de l'enquête : la saisie, la vérification, la codification, la pondération ou la mise en tableaux des données. La méthode de collecte assistée par ordinateur dont on se sert dans l'EDTR réduit les risques d'erreurs de saisie parce que le logiciel fait des contrôles de cohérence et d'exhaustivité des données. Pour minimiser les erreurs de codification, de pondération ou de mise en tableaux, on effectue périodiquement des tests de diagnostic. Ces tests comprennent des comparaisons des résultats avec d'autres sources de données.
Erreurs d'échantillonnage
Des erreurs d'échantillonnage surviennent parce que l'on tire des conclusions pour l'ensemble de la population à partir de renseignements obtenus auprès de seulement un échantillon de la population. Les résultats ainsi obtenus peuvent différer de ceux que l'on obtiendrait si les renseignements avaient été recueillis auprès de l'ensemble de la population. Les erreurs attribuables à l'élargissement du champ d'application des conclusions d'après l'échantillon à l'ensemble de la population sont appelées erreurs d'échantillonnage. Le plan de sondage, la variabilité des caractéristiques de la population que l'enquête mesure, de même que la taille de l'échantillon détermine l'ampleur de l'erreur d'échantillonnage. De plus, pour un plan de sondage donné, l'importance de l'erreur d'échantillonnage variera selon les méthodes d'estimation employées.
Erreur-type et coefficient de variation
Une mesure commune de l'erreur d'échantillonnage est l'erreur-type (ET). Celle-ci mesure le degré de variation des estimations selon qu'on sélectionne un échantillon donné plutôt qu'un autre de même taille et ayant un plan de sondage identique. L'erreur-type sert également à calculer les intervalles de confiance associés à une estimation (Y). Les intervalles de confiance servent à exprimer la précision de l'estimation. Il a été prouvé mathématiquement que, si l'échantillonnage était répété plusieurs fois, la valeur de la population réelle s'inscrirait dans l'intervalle de confiance Y ± 2ET 95 fois sur 100 et dans l'intervalle de confiance plus restreint défini par Y ± ET, 68 fois sur 100. Une autre mesure importante de l'erreur d'échantillonnage est le coefficient de variation, calculé comme la valeur en pourcentage de l'erreur-type sur l'estimation Y (c'est-à-dire 100 × ET / Y).
L'exemple suivant illustre les rapports entre l'erreur-type, les intervalles de confiance et le coefficient de variation. Supposons que le revenu moyen estimé d'une source donnée est de 10 000 $ et que l'erreur-type correspondante est de 200 $. Le coefficient de variation est donc égal à 2 %. L'intervalle de confiance de 95 % estimé à partir de cet échantillon varie entre 9 600 $ et 10 400 $, c'est-à-dire, 10 000 $ ± 400 $. Cela signifie qu'avec un degré de confiance de 95 %, on peut affirmer que le revenu moyen de la population cible se situe entre 9 600 $ et 10 400 $.
Les erreurs-types correspondant aux estimations sont calculées selon la méthode « bootstrap ». Pour en savoir plus sur la méthode «bootstrap» et pour voir des exemples de logiciel qui permettent de produire la variance bootstrap voir le document Comment utiliser les poids bootstrap avec Wes Var et SUDAAN.
Indicateurs de qualité
Les indicateurs de qualité (IQ) sont basés sur le coefficient de variation (CV) et les seuils de suppression. Les signes conventionnels suivants sont employés :
Tableau C
Règles de qualité
Code IQ | Description |
---|---|
A | Excellente (0% <= CV < 2%) |
B | Très bonne (2% <= CV < 4%) |
C | Bonne (4% <= CV < 8%) |
D | Acceptable (8% <= CV < 16%) |
E | À utiliser avec prudence (CV plus grand ou égal à 16%) |
F | Trop peu fiable pour être publié |
. | Indisponible pour toute période de référence |
.. | Indisponible pour une période de référence précise |
... | N'ayant pas lieu de figurer |
p | Préliminaire |
r | Rectifié |
x | Confidentiel en vertu des dispositions de la Loi sur la statistique |
Seuils de suppression
Les seuils de suppression ou seuils de qualité, sont établis en fonction de la taille d'échantillon sous-jacente à l'estimation calculée. De façon générale, on requiert un minimum de 25 observations pour que l'estimation puisse être publiée. Par contre, ceci peut varier selon le type d'estimation. Les règles de suppression sont appliquées dans le but de préserver la confidentialité des répondants de l'enquête et pour assurer la qualité des estimations publiées.
Tableau D
Seuils de suppression
Type d'estimation | SUPPRIMER SI: |
---|---|
Pourcentages, distributions, proportions/parts : | |
|
Taille d'échantillon au dénominateur* < 25 ou Taille d'échantillon au dénominateur* < 100 et taille d'échantillon au numérateur < 5 |
Ratios: | |
|
Taille d'échantillon au numérateur < 25 ou Taille d'échantillon au dénominateur < 25 |
Quintiles (parts, moyennes et limites supérieures) | |
|
Taille d'échantillon /5 < 25 |
Autres type d'estimation | |
|
Taille d'échantillon < 25 |
*La taille d'échantillon au dénominateur correspond à la taille d'échantillon de l'estimation totale de laquelle la distribution, le pourcentage, la proportion ou la part est dérivée.
- Date de modification :