Une mise en garde concernant la winsorisation de Clark Section 1. Introduction

Récemment, nous avons étudié des méthodes de détection et de traitement des valeurs influentes dans le but de trouver une méthode objective pour identifier et traiter les valeurs influentes dans une population d’entreprises fortement asymétrique (Mulry et coll. 2014). Une observation est jugée influente si sa valeur est correcte, mais sa contribution pondérée exerce un effet excessif sur le total estimé ou sur la variation d’une période à l’autre. Les valeurs influentes sont peu fréquentes dans les enquêtes économiques, mais s’il s’en produit une et qu’elle n’est pas « traitée », elle pourrait introduire une surestimation ou une sous-estimation importante des totaux d’enquête ou de la variation d’une période à l’autre. Cette situation pourrait, à son tour, avoir une incidence sur d’autres mesures de l’économie. Ainsi, les estimations mensuelles des ventes et des stocks découlant de la Monthly Retail Trade Survey (MRTS) du U.S. Census Bureau servent d’entrées dans le calcul du produit intérieur brut (PIB). Dans le cas de toute méthode de détection et de traitement des valeurs aberrantes, un aspect particulièrement intéressant est la plage de valeurs qui, selon la méthode, sont des valeurs influentes, plage que l’on appelle « zone de détection ». La taille et les bornes de la zone de détection influent directement sur le nombre de valeurs identifiées et sur la quantité minimale d’ajustement qui leur sera appliquée. Par conséquent, il importe de comprendre comment « manipuler » la méthode utilisée, pour s’assurer que 1) les vraies valeurs influentes sont systématiquement identifiées et reçoivent toujours le traitement minimal nécessaire, afin de prédire leur effet sur les totaux sans perturber exagérément la distribution de l’échantillon et que 2) des valeurs qui ne sont pas influentes sont rarement identifiées comme l’étant et sont systématiquement associées à des ajustements triviaux.

Une des méthodes utilisées pour la détection et le traitement des valeurs influentes est la winsorisation. Celle-ci consiste à remplacer les valeurs extrêmes par d’autres, moins extrêmes, déplaçant de fait ainsi les valeurs extrêmes originales vers le centre de la distribution. Le processus de winsorisation peut être unilatéral si l’on traite uniquement les valeurs extrêmes qui sont trop élevées, ou bilatérales si l’on traite simultanément les valeurs élevées et faibles. Les valeurs désignées comme étant influentes sont modifiées (« traitées ») en les remplaçant par des valeurs choisies en vue de réduire au minimum l’erreur quadratique moyenne (EQM) de l’estimation du total. Pour une discussion plus approfondie, voir Chambers (1986), Chambers et coll. (2000), et Martinoz, Haziza et Beaumont (2015).

Dans la présente note, nous nous concentrons sur la winsorisation de Clark, une méthode unilatérale élaborée par Clark (1995) et décrite par Chambers et coll. (2000). La méthode de winsorisation de Clark s’appuie sur un modèle de données hypothétique, et utilise un algorithme pour détecter et traiter les valeurs influentes. Les valeurs détectées et traitées représentent la zone de détection. Nos études ont montré que l’algorithme de winsorisation de Clark peut être efficace, mais que la zone de détection qui en résulte dépend fortement du nombre de valeurs influentes dans l’échantillon. Si celui-ci ne contient aucune valeur influente, la procédure est anticonservatrice, c’est-à-dire qu’elle apporte de très petits changements à plusieurs valeurs qui ne sont pas considérées comme étant influentes, ce qui réduit la variance et l’EQM, mais laisse le total estimé essentiellement inchangé (troncature). Par ailleurs, la procédure peut devenir très conservatrice si l’échantillon contient une seule valeur influente, en fonction de la distance de cette valeur par rapport au reste de la distribution. Quand l’échantillon contient deux valeurs influentes ou plus, la winsorisation de Clark détecte et ajuste uniquement les valeurs influentes et ne tronque aucune valeur non influente. Cependant, la procédure peut être sujette au masquage (Barnett et Lewis 1994). La troncature d’observations lorsqu’aucune valeur influente n’est présente ne plaît pas aux analystes de domaines spécialisés dans un contexte de production où le temps est limité. Le coût de l’examen d’un résultat « faussement positif » peut être prohibitif et les valeurs traitées pourraient être catégorisées comme étant imputées dans les calculs des taux de réponse. Cependant, l’algorithme offre l’avantage d’être simple à mettre en œuvre et de ne pas nécessiter de connaissances a priori de la population. Il existe certainement des situations où ces avantages de la winsorisation de Clark peuvent supplanter les inconvénients.

Nous examinons les zones de détection des valeurs influentes produites par la winsorisation de Clark en utilisant un ensemble de données simulées qui représente raisonnablement la population de la MRTS et qui a été utilisé pour la première fois dans Mulry et coll. (2014). Nous montrons, dans plusieurs scénarios, que la présence d’une seule par contraste avec deux valeurs très influentes peut influer sur la zone de détection. Notre objectif n’est pas de conseiller ou de déconseiller le recours à la méthode; la présente note a pour objet de sensibiliser les utilisateurs éventuels aux aspects de la procédure qui peuvent avoir une incidence sur le résultat.

La section 2 donne des informations de base sur les enquêtes mensuelles auprès des entreprises incluant un sommaire du plan d’échantillonnage et de la méthode de pondération. La section 3 présente une description de la méthodologie de la winsorisation de Clark ainsi que de sa mise en application dans la MRTS. La discussion à la section 4 se concentre sur la zone de détection pour les valeurs influentes alors que les sections 4.1 et 4.2 traitent de la situation où l’échantillon compte respectivement une et deux valeurs influentes. La section 5 conclut par un résumé.

Date de modification :