Une mise en garde concernant la winsorisation de Clark Section 1. IntroductionUne mise en garde concernant la winsorisation de Clark Section 1. Introduction

Récemment, nous avons étudié des méthodes de détection et de traitement des valeurs influentes dans le but de trouver une méthode objective pour identifier et traiter les valeurs influentes dans une population d’entreprises fortement asymétrique (Mulry et coll. 2014). Une observation est jugée influente si sa valeur est correcte, mais sa contribution pondérée exerce un effet excessif sur le total estimé ou sur la variation d’une période à l’autre. Les valeurs influentes sont peu fréquentes dans les enquêtes économiques, mais s’il s’en produit une et qu’elle n’est pas « traitée », elle pourrait introduire une surestimation ou une sous-estimation importante des totaux d’enquête ou de la variation d’une période à l’autre. Cette situation pourrait, à son tour, avoir une incidence sur d’autres mesures de l’économie. Ainsi, les estimations mensuelles des ventes et des stocks découlant de la Monthly Retail Trade Survey (MRTS) du U.S. Census Bureau servent d’entrées dans le calcul du produit intérieur brut (PIB). Dans le cas de toute méthode de détection et de traitement des valeurs aberrantes, un aspect particulièrement intéressant est la plage de valeurs qui, selon la méthode, sont des valeurs influentes, plage que l’on appelle « zone de détection ». La taille et les bornes de la zone de détection influent directement sur le nombre de valeurs identifiées et sur la quantité minimale d’ajustement qui leur sera appliquée. Par conséquent, il importe de comprendre comment « manipuler » la méthode utilisée, pour s’assurer que 1) les vraies valeurs influentes sont systématiquement identifiées et reçoivent toujours le traitement minimal nécessaire, afin de prédire leur effet sur les totaux sans perturber exagérément la distribution de l’échantillon et que 2) des valeurs qui ne sont pas influentes sont rarement identifiées comme l’étant et sont systématiquement associées à des ajustements triviaux.

Une des méthodes utilisées pour la détection et le traitement des valeurs influentes est la winsorisation. Celle-ci consiste à remplacer les valeurs extrêmes par d’autres, moins extrêmes, déplaçant de fait ainsi les valeurs extrêmes originales vers le centre de la distribution. Le processus de winsorisation peut être unilatéral si l’on traite uniquement les valeurs extrêmes qui sont trop élevées, ou bilatérales si l’on traite simultanément les valeurs élevées et faibles. Les valeurs désignées comme étant influentes sont modifiées (« traitées ») en les remplaçant par des valeurs choisies en vue de réduire au minimum l’erreur quadratique moyenne (EQM) de l’estimation du total. Pour une discussion plus approfondie, voir Chambers (1986), Chambers et coll. (2000), et Martinoz, Haziza et Beaumont (2015).

Dans la présente note, nous nous concentrons sur la winsorisation de Clark, une méthode unilatérale élaborée par Clark (1995) et décrite par Chambers et coll. (2000). La méthode de winsorisation de Clark s’appuie sur un modèle de données hypothétique, et utilise un algorithme pour détecter et traiter les valeurs influentes. Les valeurs détectées et traitées représentent la zone de détection. Nos études ont montré que l’algorithme de winsorisation de Clark peut être efficace, mais que la zone de détection qui en résulte dépend fortement du nombre de valeurs influentes dans l’échantillon. Si celui-ci ne contient aucune valeur influente, la procédure est anticonservatrice, c’est-à-dire qu’elle apporte de très petits changements à plusieurs valeurs qui ne sont pas considérées comme étant influentes, ce qui réduit la variance et l’EQM, mais laisse le total estimé essentiellement inchangé (troncature). Par ailleurs, la procédure peut devenir très conservatrice si l’échantillon contient une seule valeur influente, en fonction de la distance de cette valeur par rapport au reste de la distribution. Quand l’échantillon contient deux valeurs influentes ou plus, la winsorisation de Clark détecte et ajuste uniquement les valeurs influentes et ne tronque aucune valeur non influente. Cependant, la procédure peut être sujette au masquage (Barnett et Lewis 1994). La troncature d’observations lorsqu’aucune valeur influente n’est présente ne plaît pas aux analystes de domaines spécialisés dans un contexte de production où le temps est limité. Le coût de l’examen d’un résultat « faussement positif » peut être prohibitif et les valeurs traitées pourraient être catégorisées comme étant imputées dans les calculs des taux de réponse. Cependant, l’algorithme offre l’avantage d’être simple à mettre en œuvre et de ne pas nécessiter de connaissances a priori de la population. Il existe certainement des situations où ces avantages de la winsorisation de Clark peuvent supplanter les inconvénients.

Nous examinons les zones de détection des valeurs influentes produites par la winsorisation de Clark en utilisant un ensemble de données simulées qui représente raisonnablement la population de la MRTS et qui a été utilisé pour la première fois dans Mulry et coll. (2014). Nous montrons, dans plusieurs scénarios, que la présence d’une seule par contraste avec deux valeurs très influentes peut influer sur la zone de détection. Notre objectif n’est pas de conseiller ou de déconseiller le recours à la méthode; la présente note a pour objet de sensibiliser les utilisateurs éventuels aux aspects de la procédure qui peuvent avoir une incidence sur le résultat.

La section 2 donne des informations de base sur les enquêtes mensuelles auprès des entreprises incluant un sommaire du plan d’échantillonnage et de la méthode de pondération. La section 3 présente une description de la méthodologie de la winsorisation de Clark ainsi que de sa mise en application dans la MRTS. La discussion à la section 4 se concentre sur la zone de détection pour les valeurs influentes alors que les sections 4.1 et 4.2 traitent de la situation où l’échantillon compte respectivement une et deux valeurs influentes. La section 5 conclut par un résumé.

ISSN : 1712-5685

Politique de rédaction

Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.

Présentation de textes pour la revue

Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).

Note de reconnaissance

Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.

Normes de service à la clientèle

Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.

Droit d'auteur

Publication autorisée par le ministre responsable de Statistique Canada.

L'utilisation de la présente publication est assujettie aux modalités de l'Entente de licence ouverte de Statistique Canada.

N° 12-001-X au catalogue

Périodicité : Semi-annuel

Ottawa

Date de modification :: 2016-12-20

Sélection de la langue

Recherche et menus

Recherche

Une mise en garde concernant la winsorisation de Clark Section 1. IntroductionUne mise en garde concernant la winsorisation de Clark Section 1. Introduction