Méthodologie

Avertissement Consulter la version la plus récente.

Information archivée dans le Web

L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

Méthodologie

Univers de l'enquête
L'échantillon
Qualité des données
Erreurs d'échantillonnage
Écart-type et coefficient de variation
Seuils de Suppression
Indicateurs de qualité
Erreurs non dues à l'échantillonnage
Pondération
Représentativité transversale de l'EDTR
Taux de réponse
Imputation de données en cas de non-réponse

Univers de l'enquête

L'EDTR est une enquête menée auprès des ménages. Elles couvre toutes les personnes au Canada, à l'exclusion des résidents du Yukon, des Territoires du Nord-Ouest et du Nunavut, des pensionnaires d'un établissement institutionnel et des personnes vivant dans des réserves indiennes. Dans l'ensemble, ces exclusions représentent moins de 3 % de la population.

L'échantillon

Les échantillons de l'EDTR sont sélectionnés à partir de l'Enquête sur la population active (EPA), une enquête mensuelle, ce qui fait qu'ils partagent le même plan de sondage que cette dernière. L'échantillon de l'EPA est prélevé à partir d'une base aréolaire et se fonde sur un plan stratifié à plusieurs degrés s'appuyant sur un échantillonnage probabiliste. L'échantillon total est composé de six échantillons indépendants, appelés groupes de renouvellement puisqu'un sixième de l'échantillon (soit un groupe de renouvellement) est remplacé tous les mois.

L'échantillon de l'EDTR est composé de deux panels. Chacun d'eux comprend deux groupes de renouvellement de l'EPA et couvre près de 15 000 ménages. Les membres d'un panel sont suivis pour une période de six années consécutives et un nouveau panel est introduit à tous les trois ans. Par conséquent, deux panels se chevauchent en tout temps.

Qualité des données

Il y a deux genres d'erreurs inhérentes aux données de sondage : les erreurs d'échantillonnage et les erreurs non dues à l'échantillonnage. La fiabilité des estimations d'enquête repose sur l'incidence combinée des erreurs d'échantillonnage et des erreurs non dues à l'échantillonnage.

Erreurs d'échantillonnage

Des erreurs d'échantillonnage surviennent parce que l'on tire des conclusions pour l'ensemble de la population à partir de renseignements obtenues auprès de seulement un échantillon de la population. Les résultats ainsi obtenus peuvent différer de ceux que l'on obtiendrait si les renseignements avaient été recueillis auprès de l'ensemble de la population. Les erreurs attribuables à l'élargissement du champ d'application des conclusions d'après l'échantillon à l'ensemble de la population sont appelées erreurs d'échantillonnage. Le plan de sondage, la variabilité des caractéristiques de la population que l'enquête mesure, de même que la taille de l'échantillon détermine l'ampleur de l'erreur d'échantillonnage. De plus, pour un plan de sondage donné, l'importance de l'erreur d'échantillonnage variera selon les méthodes d'estimation employées.

Écart-type et coefficient de variation

Une mesure commune de l'erreur d'échantillonnage est l'écart-type (ET). Celle-ci mesure le degré de variation des estimations selon qu'on sélectionne un échantillon donné plutôt qu'un autre de même taille et ayant un plan de sondage identique. L'écart-type sert également à calculer les intervalles de confiance associés à une estimation (Y). Les intervalles de confiance servent à exprimer la précision de l'estimation. Il a été prouvé mathématiquement que, si l'échantillonnage était répété plusieurs fois, la valeur de la population réelle s'inscrirait dans l'intervalle de confiance Y ± 2ET 95 fois sur 100 et dans l'intervalle de confiance plus restreint défini par Y ± ET, 68 fois sur 100. Une autre mesure importante de l'erreur d'échantillonnage est le coefficient de variation, calculé comme la valeur en pourcentage de l'écart type sur l'estimation Y (c'est-à-dire 100 × ET / Y).

L'exemple suivant illustre les rapports entre l'écart-type, les intervalles de confiance et le coefficient de variation. Supposons que le revenu moyen estimé d'une source donnée est de 10 000 $ et que l'écart-type correspondante est de 200 $. Le coefficient de variation est donc égal à 2 %. L'intervalle de confiance de 95 % estimé à partir de cet échantillon varie entre 9 600 $ et 10 400 $, c'est-à-dire, 10 000 $ ± 400 $. Cela signifie qu'avec un degré de confiance de 95 %, on peut affirmer que le revenu moyen de la population cible se situe entre 9 600 $ et 10 400 $.

Les écart-types correspondant aux estimations sont calculées selon la méthode «bootstrap». Pour en savoir plus sur les écart-types et les coefficients de variation, veuillez consulter la publication de Statistique Canada intitulée Méthodologie de l'Enquête sur la population active du Canada.

Seuils de suppression

Les seuils de suppression, ou les mesures de qualité des données, sont établis en se basant sur la taille de l'échantillon à partir duquel les estimés sont produits. De façon générale, un échantillon composé d'au moins vingt-cinq observations est requis pour que l'estimé soit publiable. Le seuil de suppression peut varier légèrement selon le type d'estimés produits. Ces seuils nous permettent d'assurer la confidentialité des répondants et la qualité des données.

Tableau D. Seuils de suppression

ESTIMÉ	SUPPRIMÉ SI:
Pourcentage, distribution, proportion/part:
% dous le seuil de faible revenu (SFR) Distribution de revenu Proportion des familles ayant un revenu=0	Dénominateur* taille de l'échantillon < 25 ou Dénominateur* taille de l'échantillon < 100 et numérateur de la taille de l'échantillon < 5
Ratios:
Gains femmes/hommes	Numérateur de la taille de l'échantillon < 25 ou Dénominateur de la taille de l'échantillon < 25
Quintiles (parts, moyennes et limites supérieures du revenu)
Part du revenu par quintile Moyenne du revenu par quintile Limites supérieures du revenu	Taille de l'échantillon de tous les quintiles /5 < 25 ou Limites supérieures du revenu pour le quintile de revenu supérieur l'ensemble des quintiles
Autres mesures
Comptes Moyennes Médianes Coefficients de Gini	Taille de l'échantillon < 25

*La taille de l'échantillon du dénominateur réfère à la taille de l'échantillon de la population totale à partir duquel la distribution, les pourcentages, les proportions ou les parts sont dérivés.

Indicateurs de qualité

Les indicateurs de qualité sont basés sur le coefficient de variation (CV) et les seuils de suppression. Pour le moment, les indicateurs de qualité s'appliquent principalement aux données de 2002, à l'exception de quelques tableaux longitudinaux. Les indicateurs de qualité ont été omis pour les années pour lesquelles ils ne sont pas disponibles.

Les signes conventionnels suivants sont employés:

.	indisponible pour toute période de référence
..	indisponible pour une période de référence précise
.	n'ayant pas lieu de figurer
s	valeur arrondie à 0 (zéro)
p	préliminaire
r	rectifié
x	confidentiel en vertu des dispositions de la Loi sur la statistique
A	excellente
B	très bonne
C	bonne
D	acceptable
E	à utiliser avec prudence
F	trop peu fiable pour être publié

Erreurs non dues à l'échantillonnage

Les erreurs non dues à l'échantillonnage sont habituellement des erreurs humaines, comme les erreurs d'inattention, les malentendus et les interprétations erronées. Les erreurs aléatoires auront très peu d'effet sur un grand nombre d'observations. En revanche, les erreurs systématiques peuvent influer considérablement sur la fiabilité des estimations. Dans le cadre de l'EDTR, on consacre beaucoup de temps et d'efforts à la réduction des erreurs non dues à l'échantillonnage.

Les erreurs non dues à l'échantillonnage peuvent provenir de diverses sources telles que les erreurs de couverture, de réponse, de non-réponse et de traitement.

Il y a erreur de couverture quand les unités de la base de sondage ne représentent pas exactement la population cible. On peut avoir omis des unités de la base de sondage (sous-dénombrement), inclus des unités qui n'appartiennent pas à la population cible (sur-dénombrement) ou inclus les mêmes unités plus d'une fois (unités en double). Le problème le plus commun est celui du sous-dénombrement.

Le taux de glissement constitue une mesure de l'erreur de couverture de l'enquête. On le définit comme étant la différence en pourcentage entre les totaux de contrôle (tirés des estimations démographiques basées sur le Recensement) et les comptes pondérés de l'échantillon. Les taux de glissement dans le cas des enquêtes auprès des ménages sont habituellement positifs parce que des personnes qui devraient être dénombrées ne le sont pas. Les taux de glissement ont été révisés rétroactivement jusqu'en 1996 au moyen des estimations démographiques basées sur le Recensement de 1996. Selon les données du tableau ci-après, l'EDTR a pris en compte 84% de sa population cible en 2002. Pour les procédures d'estimation de l'EDTR, on utilise les estimations démographiques basées sur le Recensement pour compenser les taux de glissement déterminés.

Sur demande, vous pouvez aussi obtenir les taux pour les groupements par sexe, province et âge.

Tableau E. Taux de glissement pour l'EDTR

	1996	1997	1998	1999	2000	2001	2002
Canada (%)	10.28	11.12	11.85	12.02	12.64	13.40	16.02

Les erreurs de réponse peuvent être attribuables à de nombreux facteurs (un questionnaire mal conçu, une interprétation erronée des questions de la part des intervieweurs ou des répondants ou une déclaration fausse des répondants, par exemple). On s'efforce énormément de réduire l'existence de l'erreur de réponse dans l'EDTR. Parmi les mesures prises pour minimiser ce type d'erreur, mentionnons le recours à des intervieweurs hautement qualifiés et bien formés, et la supervision des intervieweurs afin de déceler une interprétation erronée des instructions ou des problèmes à l'égard du plan de questionnaire. Malgré tout, les répondants peuvent introduire une erreur s'ils ont, volontairement ou non, donné une mauvaise réponse.

Les données sur le revenu prêtent particulièrement à de fausses déclarations, vu qu'il s'agit d'une question délicate à multiples volets à l'égard de laquelle les répondants ne sont pas toujours familiers. Pour obtenir des renseignements plus exacts, les données sur le revenu sont recueillies dans le cadre de l'EDTR après la période de déclaration de revenus, moment où les répondants connaissent le mieux leur dossier d'impôt. Les répondants reçoivent de l'information relative à l'interview sur le revenu avant l'appel téléphonique de l'intervieweur. Ils disposent ainsi de temps pour consulter leurs documents et avoir en main les renseignements voulus au moment de l'interview. Pour les répondants qui autorisent Statistique Canada à consulter leurs fichiers d'impôt (soit la plupart des répondants), les données de l'EDTR sur le revenu sont puisées à même les fichiers administratifs. Cette procédure minimise le nombre de fausses déclarations de revenu dans le cadre de l'EDTR.

Dans une certaine mesure, il peut y avoir des erreurs dues à la non-réponse dans toute enquête notamment parce que les membres du ménage sont en vacances durant la période d'interview ou refusent de communiquer les renseignements demandés, malgré les tentatives de l'intervieweur d'obtenir une réponse complète auprès des unités échantillonnées. Pour ces personnes, les données manquantes sont imputées soit explicitement en attribuant des données à chaque non-répondant selon l'enregistrement d'un répondant similaire, soit implicitement en redistribuant le poids du non-répondant entre les autres répondants. Le biais associé à la non-réponse augmente en fonction de la différence entre les caractéristiques des répondants et des non-répondants. Les méthodes employées pour compenser la non-réponse et, du coup, pour tenter de minimiser le biais s'appuient sur les renseignements disponibles à l'égard des répondants et des non-répondants.

Les erreurs de traitement peuvent se produire à divers stades de l'enquête : la saisie, la vérification, la codification, la pondération ou la mise en tableaux des données. La méthode de collecte assistée par ordinateur dont on se sert dans l'EDTR réduit les risques d'erreurs de saisie parce que le logiciel fait des contrôles de cohérence et d'exhaustivité des données. Pour minimiser les erreurs de codification, de pondération ou de mise en tableaux, on effectue périodiquement des tests de diagnostic. Ces tests comprennent des comparaisons des résultats avec d'autres sources de données.

Pondération

L'estimation des caractéristiques de la population à partir d'une enquête repose sur l'hypothèse selon laquelle chaque unité échantillonnée représente, en plus d'elle-même, un certain nombre d'unités non échantillonnées dans la population. Un poids d'enquête de base joint à chaque enregistrement indique le nombre d'unités dans la population qui sont représentées par cette unité dans l'échantillon.

Deux types de correction s'appliquent alors aux poids d'enquête de base afin d'améliorer la fiabilité des estimations. Les poids de base sont d'abord augmentés pour tenir compte de la non-réponse. Puis, ceux-ci ajustés pour la non-réponse sont à nouveau ajustés pour que les estimations sur des caractéristiques démographiques pertinentes soient conformes aux agrégats provenant de sources autres que l'enquête.

L'EDTR se base sur les comptes de population à l'échelle provinciale estimés par la Division de la démographie de Statistique Canada selon l'âge et le sexe, la taille du ménage et la taille de la famille économique. Dans l'EDTR, différents poids s'appliquent aux estimations transversales et longitudinales.

Représentativité transversale de l'EDTR

Chaque échantillon longitudinal ou « panel » dans l'EDTR est au départ un échantillon transversal représentatif de la population. Cependant, parce que la population réelle varie d'une année à l'autre alors que, par définition, l'échantillon longitudinal reste le même, l'échantillon doit être ajusté de manière à bien refléter les changements dans la composition de la population. On y parvient en ajoutant à l'échantillon toutes les nouvelles personnes qui vivent avec les premiers répondants (tout en les enlevant de nouveau à des périodes subséquentes, si elles quittent le ménage). Inversement, on attribue aux premiers répondants qui quittent la population cible (en déménageant à l'étranger, en étant institutionnalisés, etc.) un poids égal à zéro aux fins de l'échantillon transversal.

Ainsi, l'échantillon transversal, composé des premiers répondants toujours dans la population cible ainsi que les personnes cohabitant avec eux est pratiquement entièrement représentatif de la population à chaque période. Le groupe manquant est composé de personnes qui viennent tout juste de s'ajouter à la population cible et qui ne vivent pas avec quelqu'un qui faisait partie de la population cible au moment de la sélection du plus récent panel. Comme l'EDTR lance un nouveau panel tous les trois ans, ce groupe est toutefois assez petit.

Taux de réponse

La qualité des données de toute enquête repose sur des taux de réponse élevés. C'est pourquoi on encourage fortement les répondants à participer pleinement à l'EDTR.

La réponse est calculée au niveau du ménage. Un ménage est jugé être « répondant » si au moins un de ses membres a répondu à l'interview soit de janvier, soit de mai. Il a été déterminé en outre que les renseignements sur la composition du ménage ne peuvent être manquants pour plus d'un an.

Dans un ménage répondant, tous les membres reçoivent une pondération finale identique et positive et, pour les membres (s'il y a lieu) qui n'ont pas répondu à l'une des étapes de la collecte ou aux deux, les données définitives sont déclarées soit « absentes » dans la base de données définitive, soit imputées, selon la variable.

Les taux de réponse transversaux, présentés dans le tableau F, s'échelonnaient de 79,1% (2002) à 85,5% (1996).

Tableau F : Taux de réponse à l'EDTR (1996-2002)

Année	1996	1997	1998	1999	2000	2001	2002
Taux de réponse (%)	85.5	83.6	82.3	82.8	80.8	79.1	79.1

Imputation de données en cas de non-réponse

On impute les données en s'appuyant d'abord sur les données de l'année précédente, mises à jour selon les circonstances. Ce n'est qu'en l'absence de données de l'année précédente que les données sont imputées selon la méthode du « plus proche voisin ». Cette méthode consiste à identifier une autre personne ayant des caractéristiques comparables à la personne qui n'a pas répondu aux questions. La valeur imputée est tirée de l'enregistrement de la personne semblable dite « répondant-donneur ».

Certaines sommes reçues dans le cadre de programmes gouvernementaux, comme les prestations fiscales pour enfants, le crédit pour la taxe sur les produits et services ou taxe de vente harmonisée, et le supplément de revenu garanti, sont calculées à partir d'autres renseignements. Les données obtenues à partir des fichiers d'impôt sont complètes et ne nécessitent pas d'imputation.

Page d'accueil \| Recherche \| Contactez-nous \| English
Date de modification : 2008-11-16	Avis importants