Publications

    Statistique Canada : Lignes directrices concernant la qualité

    Pondération et estimation

    Warning Consulter la version la plus récente.

    Information archivée dans le Web

    L’information dont il est indiqué qu’elle est archivée est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n’est pas assujettie aux normes Web du gouvernement du Canada et elle n’a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, veuillez communiquer avec nous.

    Portée et objet
    Principes
    Lignes directrices
    Indicateurs de qualité
    Bibliographie

    Portée et objet

    Une enquête vise habituellement à estimer des paramètres descriptifs de population, de même que des paramètres d'analyse, sur la base d'un échantillon sélectionné à partir d'une population d'intérêt. Parmi les exemples de paramètres figurent les statistiques descriptives simples, comme les totaux, les moyennes, les ratios et les centiles. Parmi les exemples de paramètres analytiques figurent les coefficients de régression, les coefficients de corrélation et les mesures de l'inégalité de revenu.

    Dans une enquête probabiliste, un poids de sondage est associé à chaque unité échantillonnée. Ce poids peut être interprété comme le nombre d'unités typiques dans la population d'enquête que chaque unité échantillonnée représente. Des estimations peuvent être calculées à partir de ces poids ou des poids d'estimation obtenus en rajustant les poids de sondage. Parmi les rajustements courants figurent ceux qui tiennent compte de la non-réponse et qui intègrent des données auxiliaires. Voir Statistique Canada (2003).

    La précision d'une estimation est un aspect important de la qualité. Cet aspect est mesuré au moyen de l'erreur type estimée (racine carrée de la variance estimée). On peut améliorer cette précision en intégrant des données auxiliaires dans le processus d'estimation.

    Principes

    Dans une enquête probabiliste, tous les éléments de la population possèdent une probabilité connue d'être sélectionnés dans l'échantillon. Ces probabilités d'inclusion tiennent compte des aspects du plan d'échantillonnage, comme la stratification, les grappes et la sélection à plusieurs degrés ou à plusieurs phases. Le poids de sondage est égal à l'inverse de la probabilité d'inclusion dans l'échantillonnage à une phase (un degré). Il s'agit du produit de l'inverse des probabilités de sélection de chaque phase (degré) dans un plan à plusieurs phases (plusieurs degrés).

    En cas de non-réponse totale, l'échantillon observé est plus petit que l'échantillon initial sélectionné. Afin de compenser la non-réponse totale, on doit procéder à une repondération en rajustant les poids de sondage. Ces facteurs d'ajustement doivent être fondés sur la probabilité de réponse de chaque unité, qui peut être estimée au moyen de modèles.

    Si des données auxiliaires sont disponibles, on peut améliorer la précision des estimations. L'intégration de données auxiliaires dans les processus d'estimation est appelée calage. Le calage consiste à rajuster les poids, afin que les estimations de la ou des variables auxiliaires correspondent à des totaux connus (aussi appelés totaux de contrôle). Le calage comprend des estimateurs bien connus comme l'estimateur par la régression, par le ratio et par le ratissage croisé (Deville et Särndal, 1992). Parmi les propriétés souhaitables du calage figurent les suivantes :

    • cohérence des estimations entre les différentes sources;
    • améliorations possibles de la précision des estimations;
    • réduction possible de l'erreur due à la non-réponse totale et de l'erreur de couverture.

    Les estimations sont le résultat de la somme des données multipliées par les poids de sondage ou par le poids d'estimation. Deux types d'erreurs sont associés à ces estimations : erreur d'échantillonnage et erreur non due à l'échantillonnage. L'erreur d'échantillonnage est l'erreur causée par l'observation d'un échantillon plutôt que l'ensemble de la population (Särndal et coll., 1992). Elle est mesurée par la variance d'échantillonnage, qui dépend du plan de sondage et des données auxiliaires qui sont utilisées dans le processus d'estimation. Les erreurs non dues à l'échantillonnage comprennent les erreurs de couverture (base de sondage imparfaite), les erreurs de mesure, les erreurs de traitement et les erreurs liées à la non-réponse.

    Une estimation de la variance d'échantillonnage peut être calculée au moyen de méthodes comme la linéarisation de Taylor ou des méthodes de rééchantillonnage, comme le jackknife et le bootstrap. Peu importe la méthode utilisée, elle doit intégrer les propriétés du plan d'échantillonnage, comme la stratification, les grappes ou la sélection à plusieurs degrés ou phases, selon le cas.

    Il est plus difficile de mesurer les erreurs non dues à l'échantillonnage. Cela peut nécessiter des données additionnelles qui ne sont généralement pas disponibles. Parmi les exemples figurent les mesures répétées, en vue d'évaluer les erreurs de mesure, et le recontact avec les non-répondants, en vue d'évaluer le biais lié à la non-réponse.

    Lignes directrices

    Pondération

    • Un poids doit être associé à chaque unité échantillonnée. Ce poids peut être le poids de sondage ou le poids d'estimation (par exemple, le poids de calage). Si on utilise uniquement le poids de sondage, l'estimateur qui en résulte s'appelle estimateur d'Horvitz-Thompson. Si des données auxiliaires sont utilisées pour le calage, l'estimateur qui en résulte est appelé estimateur de calage. Le poids lié à cet estimateur est appelé poids d'estimation ou de calage. Un poids d'estimation doit être utilisé chaque fois que le poids de sondage a été rajusté pour tenir compte de la non-réponse ou des données auxiliaires.
    • Comme il est peu probable que l'on obtienne une réponse complète, on doit faire des rajustements pour tenir compte de la non-réponse afin de réduire le biais attribuable à la non-réponse. L'application de ces rajustements dans des sous-ensembles de population peut réduire le biais lié à la non-réponse. On suppose que les non-répondants ont un comportement similaire à celui des répondants de ces sous-ensembles. Ceux-ci sont délimités à partir de données auxiliaires (Lundström et Särndal, 2005) ou de modèles de propension (Eltinge et Yansaneh, 1997).
    • Si des données auxiliaires sont corrélées aux variables d'intérêt, on doit envisager le calage. Ces données auxiliaires doivent au moins être disponibles pour les unités échantillonnées, et les totaux de population correspondants doivent être connus. L'estimateur de calage résultant comportera habituellement une variance plus faible que l'estimateur d'Horvitz-Thompson. En outre, les données auxiliaires pondérées s'additionneront aux totaux de population.
    • Les poids de calage peuvent être très gros ou même négatifs. Si cela se produit, des méthodes existent pour contrôler la fourchette des poids. Voir Huang et Fuller (1978) ou Deville et Särndal (1992).
    • L'estimation composite doit être envisagée pour les enquêtes périodiques comportant un chevauchement d'échantillons importants entre les cycles. Il s'agit d'une méthode de calage qui traite les données des cycles précédents comme des variables auxiliaires. Pour plus de détails, voir Gambino, Kennedy et Singh (2001).
    • Deux ensembles de poids peuvent être associés aux enquêtes longitudinales : les poids longitudinaux et les poids transversaux. Les poids longitudinaux se rapportent à la population pour laquelle la sélection initiale de l'échantillon longitudinal a été faite. Dans le cas de l'analyse longitudinale, ces poids doivent être rajustés pour tenir compte de l'érosion de l'échantillon. Les poids transversaux rendent compte de la population à un moment donné. Ils peuvent être utilisés pour produire des estimations ponctuelles ou des différences d'estimations ponctuelles entre les périodes.
    • Si un échantillonnage double (à deux phases) a eu lieu, les poids doivent rendre compte du plan de sondage et des données auxiliaires disponibles pour la population ou pour l'échantillon de première phase.

    Estimation

    • Le processus d'estimation doit utiliser des poids d'estimation pour calculer les statistiques descriptives et analytiques des domaines d'intérêt. Les poids d'estimation sont équivalents aux poids de sondage, si aucun rajustement n'a été effectué. Les estimateurs correspondants de la variance doivent rendre compte du plan d'échantillonnage, des rajustements des poids de sondage, de l'imputation, ainsi que de la méthode d'estimation. Les variances peuvent être estimées au moyen de méthodes de linéarisation ou de rééchantillonnage (jackknife, répliques répétées équilibrées et bootstrap). Pour plus de détails, voir Wolter (2007).
    • Les petits domaines ont trait à des sous-populations dont l'échantillon n'est pas suffisant (ou pour lesquelles il n'existe pas du tout d'échantillon) pour produire des estimations fiables. Il est par conséquent raisonnable d'intégrer les exigences relatives à ces domaines à l'étape du plan d'échantillonnage (Singh, Gambino et Mantel, 1994). Si cela n'est pas possible à l'étape de l'échantillonnage, ou si les domaines ne sont précisés qu'à une étape ultérieure, il faut envisager des méthodes spéciales d'estimation (estimateurs pour petits domaines) à l'étape de l'estimation. Ces méthodes « prennent appui » sur des régions (ou des domaines) connexes, pour réduire l'erreur quadratique moyenne de l'estimateur résultant (Rao, 2003).
    • Lorsque ceci est approprié, on doit utiliser un logiciel généralisé d'estimation (Estevao et coll., 1995).

    Indicateurs de qualité

    Principal élément de la qualité : exactitude

    • La qualité d'une estimation ponctuelle est habituellement décrite en termes d'exactitude et de précision. L'exactitude représente la mesure dans laquelle une valeur mesurée correspond, en moyenne, à la valeur réelle. L'exactitude d'un estimateur est évaluée du point de vue de la proximité de la moyenne de ses valeurs réalisées et du paramètre d'intérêt. À cette fin, on compare son espérance sous le plan avec le paramètre, et la différence est appelée biais. La précision, par ailleurs, rend compte du degré de correspondance entre les différentes mesures. La précision est habituellement mesurée au moyen de l'erreur d'échantillonnage : il s'agit de l'erreur qui découle de l'observation d'un échantillon plutôt que de l'ensemble de la population. Si un estimateur est sans biais, son erreur quadratique moyenne est égale à sa variance d'échantillonnage.
    • Lorsqu'il existe des estimateurs sans biais et efficaces du point de vue de la variance, on devrait les utiliser. Des estimateurs légèrement biaisés peuvent être utilisés si leur efficacité, mesurée au moyen de l'erreur quadratique moyenne, est plus faible que la variance des estimateurs non biaisés correspondants.
    • Le coefficient de variation est habituellement utilisé pour décrire la précision d'une estimation. Il est défini comme l'erreur type de l'estimation divisée par la valeur réelle du paramètre. Une estimation avec un coefficient de variation donné est moins précise qu'une estimation comportant un coefficient de variation plus faible. En raison de la division possible par zéro, ainsi que de problèmes d'interprétation, l'utilisation des coefficients de variation devrait être limitée aux variables d'intérêt positives. Autrement, on doit utiliser les erreurs types.
    • Les estimateurs qui intègrent des données auxiliaires reposent sur le principe que les modèles entre les variables cibles et les données auxiliaires s'appliquent à toutes les unités de la population. En pratique, toutefois, il est difficile de déterminer si les hypothèses des modèles sont valides. Les estimations qui utilisent des données auxiliaires devraient être accompagnées par une description des hypothèses des modèles et par une évaluation de l'effet probable de ces hypothèses sur la qualité des estimations.

    Bibliographie

    Deville, J.-C. et C.E. Särndal. 1992. « Calibration Estimators in Survey Sampling », Journal of the American Statistical Association, no87, p. 376 à 382.

    Eltinge, J.L. et I.S. Yansaneh. 1997. « Méthodes diagnostiques pour la construction de cellules de correction pour la nonréponse avec application à la nonréponse aux questions sur le revenu de la U.S.Consumer Expenditure Survey », Techniques d'enquête, no23, p. 37 à 45.

    Estevao, V., M.A. Hidiroglou et C.E. Särndal. 1995. « Methodological Principles for a Generalized Estimation System at Statistics Canada », Journal of Official Statistics, no11, p. 181 à 204.

    Gambino, J., B. Kennedy et M.P. Singh. 2001. « Estimation composite par régression pour l'Enquête sur la population active du Canada : évaluation et application », Techniques d'enquête, no27, p. 69 à 79.

    Huang, E. T. et W.A. Fuller. 1978. « Nonnegative Regression Estimation for Sample Survey Data », Proceedings of the Social Statistics Section, American Statistical Association, p. 300 à 303.

    Lundström, S. et C.-E. Särndal. 2005. Estimation in Surveys with Nonresponse, New York, John Wiley and Sons.

    Rao, J.N.K. (2003). Small Area Estimation, New York, John Wiley and Sons.

    Särndal, C.E., B. Swensson, et J.H. Wretman. 1992. Model Assisted Survey Sampling, New York, Springer-Verlag.

    Singh, M.P., J. Gambino et H. Mantel. 1994. « Les petites régions : problèmes et solutions »,  Techniques d'enquête, no20, p. 3 à 23.

    Statistique Canada. 2003. Méthodes et pratiques d'enquête, produit no 12-587-XIF au catalogue de Statistique Canada, Ottawa.

    Wolter, K. 2007. Introduction to Variance Estimation, 2e édition, New York, Springer-Verlag.

    Date de modification :