Section 1
Les erreurs d'échantillonnage

Warning Consulter la version la plus récente.

Information archivée dans le Web

L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

Les mesures de l'erreur d'échantillonnage
Les coefficients de variation
Modèle pour dériver une approximation du CV
Suppression des données non fiables dans les tableaux d'estimations

Les erreurs d'échantillonnage découlent du fait que les inférences que l'on tire au sujet de l'ensemble de la population à partir de l'enquête sont fondées sur l'information que l'on a recueillie auprès d'un échantillon de la population et non pas auprès de toute la population. Outre le plan de sondage et la méthode d'estimation qui ont été appliqués pour l'enquête sur les dépenses des ménages (EDM), la taille d'échantillon ainsi que la variabilité de chaque caractéristique sont des facteurs déterminants de l'erreur d'échantillonnage. Les caractéristiques qui sont rares ou qui sont distribuées de façon très différente dans la population auront une erreur d'échantillonnage plus grande que les caractéristiques qu'on observe plus fréquemment ou qui sont plus homogènes dans la population.

1.1 Les mesures de l'erreur d'échantillonnage

L'erreur-type est une mesure standard de l'erreur d'échantillonnage. L'erreur-type (SE) correspond au degré de variation de l'estimation considérant qu'un échantillon particulier a été choisi, plutôt qu'un autre, parmi tous les échantillons possibles de même taille sous le même plan de sondage. Comme l'EDM utilise un plan d'échantillonnage et une méthode d'estimation complexes, on estime l'erreur-type à partir d'une méthode de rééchantillonnage appelée le bootstrap. Jusqu'à l'année de référence 2002, l'EDM utilisait la méthode de rééchantillonnage du jackknife afin de produire les estimations de l'erreur type. Il a été décidé d'utiliser la méthode du bootstrap à compter de l'EDM de 2003 principalement en raison du fait que la Division de la statistique du revenu (DSR) allait diffuser les médianes des dépenses et requérait donc les coefficients de variation de celles-ci. La méthode du bootstrap permet l'estimation de la variance de statistiques non lisses comme les quantiles. Pour plus de détails sur cette méthode, voir la référence [2].

Le coefficient de variation (CV) est également une mesure de fiabilité de l'estimation fréquemment utilisée. Il exprime tout simplement l'erreur-type en pourcentage de l'estimation. Ainsi, si on obtient une estimation Y pour une certaine caractéristique et que SE correspond à l'erreur-type estimée, le CV sera (SE/Y) x 100.

Finalement, l'erreur-type ou le coefficient de variation peuvent être utilisés pour dériver une autre mesure de précision des estimations, l'intervalle de confiance. Cette mesure indique le niveau de confiance selon lequel la valeur réelle dans la population pour une caractéristique qu'on a observée se trouve à l'intérieur de certaines limites. Un intervalle avec un niveau de confiance de 95 % correspond à l'estimation obtenue à partir de l'échantillon ± 2 erreur-type : (Y ± 2 SE).1 Cela signifie que si on répétait l'échantillonnage un grand nombre de fois, chaque échantillon fournirait un intervalle différent et 95 % des intervalles contiendraient la vraie valeur de la caractéristique. De façon similaire, si on répétait l'échantillonnage, l'intervalle Y ± SE contiendrait la vraie valeur dans 68 % des cas.

1.2 Les coefficients de variation

Des estimations des coefficients de variation sont calculées pour les estimations de plusieurs caractéristiques collectées dans l'EDM. Les CV pour les estimations de la moyenne des dépenses par ménage (pour les catégories de dépenses détaillées), ainsi que pour les caractéristiques des logements et l'équipement ménager, sont disponibles sur demande à l'échelle nationale et provinciale (Division de la statistique du revenu, 1-888-297-7355 : revenu@statcan.gc.ca)

On doit noter que les estimations de CV ne tiennent pas compte du fait que certaines données ont été imputées; par conséquent, les CV présentés peuvent sous-estimer les valeurs réelles. Pour la plupart des variables, le taux d'imputation est peu élevé (voir section 5) et les CV fournis représentent une bonne estimation des vrais CV . Cependant, il est important de tenir compte à la fois du CV et du taux d'imputation si on s'intéresse à la fiabilité de dépenses détaillées ayant un taux d'imputation élevé.

Le tableau 1.1 donne un aperçu des CV des estimations des moyennes par ménage à l'échelle provinciale et territoriale ainsi qu'à l'échelle nationale pour l'estimation de quelques-unes des catégories de dépenses sommaires et pour le revenu.

Tableau 1.1 Coefficients de variation (%) par province et territoire ainsi qu'à l'échelle nationale pour l'estimation de la moyenne des dépenses par ménage pour quelques catégories de dépenses sommaires et pour l'estimation du revenu moyen

Les coefficients de variation de l'estimation de la moyenne des dépenses totales par ménage varient entre 1,1 % et 1,9 % selon les provinces et il est de 0,8 % à l'échelle nationale. Les CV sont plus élevés dans les territoires, soit 8,2 % au Yukon,  6,1 % dans les Territoires du Nord-Ouest et de 5,6 % au Nunavut.

Pour les différentes catégories de dépenses sommaires, les CV à l'échelle nationale sont inférieurs ou égaux à 2,2 % à l'exception des dépenses dans les catégories suivantes: éducation, jeux de hasard, dépenses diverses ainsi que dons en argent et contributions. Ces catégories de dépenses représentent respectivement 1,5 %, 0,4 %, 1,5% et 2,6 % du total des dépenses (données non présentées). De plus, si on fait exception de ces catégories, les CV sont généralement inférieurs ou égaux à 5 % à l'échelle provinciale. La taille de l'échantillon étant moindre à l'Île-du-Prince-Édouard, les CV ont tendance à être plus élevés que ceux des autres provinces. Les CV dans les territoires sont pour la plupart inférieurs à 14 % si on exclut ces mêmes catégories. Également, la taille de l'échantillon étant moindre dans les territoires, les CV ont tendance à être plus élevés que ceux des provinces.

Le tableau 1.2 donne un aperçu des CV pour les caractéristiques des logements et de l'équipement ménager à l'échelle provinciale ainsi qu'à l'échelle nationale pour l'estimation de quelques-unes des catégories.

Tableau 1.2 Coefficients de variation (%) par province et territoire ainsi qu'à l'échelle nationale pour quelques catégories des caractéristiques des logements et l'équipement ménager

Les coefficients de variation pour les caractéristiques des logements et de l'équipement ménager sont généralement inférieurs à 4 % à l'échelle provinciale sauf pour les catégories : locataire, antenne parabolique, connexion téléphonique régulière à un ordinateur (Modem), connexion téléphonique haute vitesse à un ordinateur et connexion câble à un ordinateur. L'Île-du-Prince-Édouard fait exception. La taille de l'échantillon étant moindre, les CV ont tendance à être plus élevés que ceux des autres provinces. Seule la province de Québec affiche un CV inférieur à 3 % pour la catégorie locataire. C'est aussi dans cette province que l'on retrouve la proportion la plus élevée de locataires (41,3 %). Les CV sont plus élevés dans les territoires où l'on retrouve parfois une proportion moindre des équipements. En outre, la taille de l'échantillon étant moindre dans les territoires, les CV on tendance à être plus élevé que ceux des provinces.

Les CV pour les caractéristiques des logements et l'équipement ménager à l'échelle nationale sont inférieurs ou égaux à 2,0 % à l'exception des catégories suivantes : antenne parabolique et connexion téléphonique régulière à un ordinateur. On retrouve une proportion moindre de ménages possédant de tels équipements pour ces deux catégories. Cette proportion représente respectivement  23,8 % et 8,6 % à l'échelle nationale.

1.3 Modèle pour dériver une approximation du CV

Des estimations pour différents domaines d'intérêt (par ex., par quintile de revenu) sont disponibles pour les catégories de dépenses sommaires dans la publication Les habitudes de dépenses au Canada (référence [4]). Des estimations pour différents domaines d'intérêt pour les catégories de dépenses détaillées sont également disponibles sur demande auprès de la Division de la statistique du revenu. (Pour plus de détails sur les tableaux disponibles auprès de la Division de la statistique du revenu, voir les références [3] ou [4].) Pour des raisons opérationnelles, il n'est pas possible de produire les CV pour tous les différents niveaux d'agrégation qui pourraient intéresser les utilisateurs.

1.3.1 Approximation du CV pour les estimations des domaines

Il est toutefois possible de calculer une approximation du CV en utilisant une relation entre le nombre de ménages de l'échantillon qui ont déclaré des dépenses pour une catégorie et le CV à un niveau agrégé. Cette relation, basée sur la tendance du CV à croître proportionnellement à une diminution de la racine carrée du nombre de ménages déclarant une dépense, est illustrée ci-après.

Formule d'approximation du CV pour un domaine (un sous-groupe de la population)

Si CV (Y) représente le CV pour l'estimation de la moyenne par ménage d'une certaine caractéristique pour toute la population, alors on peut calculer une approximation du CV de l'estimation de cette caractéristique pour un domaine (que l'on peut considérer comme un sous-groupe de la population tel qu'un type de ménage, un quintile de revenu, un niveau d'urbanisation) à partir de l'équation suivante :

Description

Formule 1


n : le nombre de ménages dans l'échantillon
P : l'estimation de la proportion des ménages déclarant une valeur > 0 pour cette caractéristique dans la population
nd : le nombre de ménages de l'échantillon dans le domaine d
Pd : l'estimation de la proportion des ménages déclarant une valeur > 0 pour cette caractéristique dans le domaine d

Généralement on utilise le CV , la taille n et la proportion P à l'échelle nationale pour calculer les approximations pour les différents domaines. Dans le cas où on cherche à calculer une approximation du CV pour un domaine entièrement contenu dans une seule province (par ex. région métropolitaine), il est préférable d'utiliser ces valeurs à l'échelle provinciale puisque les CV provinciaux sont publiés pour l'EDM de 2007 (référence [3]). Il est important de se rappeler que la valeur du CV obtenue par cette approche n'est qu'une approximation du CV .

1.3.2 Approximation du CV à partir du fichier de microdonnées

Les utilisateurs du fichier de microdonnées peuvent se servir d'une autre approche pour dériver une approximation du CV des estimations, qui sera généralement plus performante que celle présentée dans la section précédente pour les CV des catégories de dépenses détaillées. Cette approche est décrite en détails dans la documentation accompagnant le fichier de microdonnées de 2007. Elle est utilisable seulement à partir du fichier de microdonnées puisqu'il est nécessaire d'avoir les données et les poids de chaque ménage pour calculer cette approximation.

Le document sur la qualité des données de l'enquête de 1997 renferme des résultats de l'évaluation de la performance de ces deux méthodes d'approximation du CV .

1.4 Suppression des données non fiables dans les tableaux d'estimations

Comme le coefficient de variation est un indicateur de la fiabilité des données, on aimerait l'utiliser pour déterminer si les estimations devraient être publiées ou non. On considère que les estimations dont le CV est estimé à plus de 33 % ne sont pas suffisamment fiables pour être publiées. Toutefois les estimations des CV ne sont pas calculées pour une grande partie des estimations publiées, la règle de suppression pour les estimations de dépenses est donc basée sur le nombre de ménages qui déclarent une valeur supérieure à zéro.2

On peut démontrer que les CV sont en général inférieurs à 33 % si le nombre de ménages qui déclarent une dépense est supérieur à 30. Comme il s'agit d'une règle approximative, certaines estimations peuvent être publiées même si le CV est supérieur à 33 % et certaines estimations ne seront pas publiées malgré un CV inférieur à 33 %. Le document sur la qualité des données de l'EDM 1997 donne les résultats de l'évaluation des risques d'erreurs de l'utilisation de la règle de suppression.


Notes

  1. L'intervalle de confiance se calcule directement à partir du CV de façon similaire, soit Y ± 2 (CV x Y)/100.
  2. En pratique, on utilise l'estimation de la proportion des ménages déclarant une dépense que l'on multiplie par la taille d'échantillon.
Date de modification :