1. Introduction

Takis Merkouris

Précédent | Suivant

L'échantillonnage matriciel est un plan d'échantillonnage selon lequel un long questionnaire est divisé en sous-ensembles de questions (items), éventuellement chevauchants, puis à administrer chaque sous-ensemble de questions à un ou à plusieurs sous-échantillons aléatoires distincts d'un échantillon initial. Sous ses diverses formes, ce plan peut servir différents objectifs, dont réduire la longueur et le coût du processus d'enquête et répondre aux préoccupations que soulève un long questionnaire en ce qui concerne le fardeau de réponse et la qualité des données. L'échantillonnage matriciel a été appliqué ou étudié dans divers domaines, principalement ceux de l'évaluation pédagogique et des études de santé publique. Un examen des travaux de recherche antérieurs sur l'échantillonnage matriciel, accompagné d'une discussion des problèmes que pose sa mise en œuvre dans les enquêtes, est présenté dans Gonzalez et Eltinge (2007). Pour des travaux récents sur les plans de sondage et l'estimation sous échantillonnage matriciel, motivés par les avantages potentiels de ce genre de plans d'échantillonnage dans les enquêtes à grande échelle, consulter Raghunathan et Grizzle (1995), Thomas, Raghunathan, Schenker, Katzoff et Johnson (2006), Gonzalez et Eltinge (2008), Chipperfield et Steel (2009, 2011), ainsi que les bibliographies connexes. Parmi les nombreux plans d'échantillonnage matriciel étudiés dans la littérature, nous distinguons quatre plans principaux qui diffèrent quant au nombre de sous-échantillons et au nombre de sous-questionnaires (chevauchants ou non) administrés à chaque sous-échantillon.

  1. Différents ensembles (non chevauchants) de questions sont administrés à différents sous-échantillons.
  2. Un ensemble de questions de base additionnel est administré à tous les sous-échantillons traités selon le plan (a). Il existe plusieurs raisons d'inclure un ensemble d'items de base dans tous les sous-échantillons : une grande précision peut être nécessaire pour certains items d'intérêt particulier; certains autres items (par exemple les caractéristiques démographiques) définissent les sous-populations et peuvent être utilisés dans des tableaux croisés des résultats de l'enquête; la corrélation des items de base avec le reste des items peut être utilisée pour améliorer la précision des estimations pour tous les items.
  3. Une variante du plan (a) comportant un sous-échantillon additionnel auquel est administré le questionnaire complet. Elle peut être considérée comme une généralisation du plan d'échantillonnage à deux phases. La raison qui motive ce plan est de permettre l'analyse de l'interaction entre les ensembles de questions, en obtenant les réponses à toutes les questions auprès des unités de l'échantillon additionnel, et de permettre une estimation plus efficace.
  4. Une extension du plan (c), dans laquelle l'ensemble de questions de base est administré à tous les sous-échantillons. Ce plan englobe toutes les caractéristiques des trois plans précédents.

L'une des tendances actuelles en ce qui concerne la planification des enquêtes consiste à appliquer une variante de l'échantillonnage matriciel dans laquelle un certain nombre d'enquêtes distinctes avec chevauchement du contenu sont intégrées en vue de rationaliser les opérations d'enquête, d'harmoniser le contenu des enquêtes, d'accroître la cohérence des données et d'améliorer l'estimation. Dans ce cadre d'échantillonnage matriciel non classique, les enquêtes distinctes peuvent être réalisées auprès de sous-échantillons d'un grand échantillon principal ou auprès d'échantillons indépendants tirés de la même population. Des plans d'échantillonnage de ce type sont étudiés activement ou mis en œuvre par divers organismes statistiques; voir, par exemple, l'intégration des enquêtes auprès des ménages de l'Office of National Statistics du Royaume-Uni (Smith 2009) et de l'Australian Bureau of Statistics (2011). Bien qu'une telle intégration puisse être considérée comme le processus inverse du fractionnement d'un questionnaire, la structure du plan de sondage en ce qui concerne la collecte des différents sous-ensembles d'éléments de données auprès de différents échantillons est essentiellement la même que dans le cadre classique. Dans le cas particulier où les échantillons provenant des diverses enquêtes sont indépendants, éventuellement issus de plans d'échantillonnage différents, les plans (b), (c) et (d) pourraient être caractérisés comme des plans d'échantillonnage matriciel non emboîté. Il convient de souligner que les avantages de l'échantillonnage matriciel ne dépendent pas toujours de l'utilisation de sous-échantillons (nécessairement dépendants) d'un échantillon initial. Dans certaines situations, il pourrait être plus pratique d'utiliser des échantillons indépendants, même s'il se peut que le chevauchement des échantillons soit négligeable.

Dans le présent article, nous abordons le problème de l'estimation sous échantillonnage matriciel, c'est-à-dire la perte de précision des estimations de l'enquête, attribuable au fait que les éléments de données ne sont pas tous recueillis auprès de toutes les unités de l'échantillon. Dans le cas de l'échantillonnage matriciel non classique du paragraphe précédent, le problème d'estimation consiste à améliorer la précision des estimations pour chaque enquête composante. Pour les plans d'échantillonnage matriciel (b), (c) et (d), qui comprennent un chevauchement des sous-ensembles de questions, une tâche d'estimation double consiste à combiner les données sur les items communs provenant des différents sous-échantillons pour améliorer l'estimation, et à exploiter les corrélations entre les items étudiés dans les divers sous-échantillons pour rendre l'estimation plus efficace pour tous les items. À cette fin, Raghunathan et Grizzle (1995) ainsi que Thomas et coll. (2006) ont exploré l'estimation avec imputation des valeurs manquantes causées par les items omis dans chaque sous-questionnaire. Gonzalez et Eltinge (2008) ont considéré l'estimation en utilisant un simple ajustement des poids qui combine les données sur les items communs. Dans le cas particulier du plan non emboîté (b), le problème d'estimation associé à la combinaison de données provenant d'échantillons indépendants a également été traité dans la littérature; voir, par exemple, Renssen et Nieuwenbroek (1997), Houbiers (2004), Merkouris (2004, 2010), Wu (2004), ainsi que Kim et Rao (2012). Le plan non emboîté (d) a été étudié dans Renssen (1998). Nous proposons une méthode d'estimation efficace, s'appuyant sur le principe de la meilleure estimation linéaire sans biais, qui produit des estimateurs par régression optimale composites des totaux au moyen d'une procédure de calage appropriée des poids d'échantillonnage de l'échantillon combiné, quand les probabilités d'inclusion de deuxième ordre dans l'échantillon sont connues. Une variante de cette procédure de calage, d'application plus générale, produit des estimateurs par régression généralisée composites qui, pour certaines conditions d'échantillonnage, sont des estimateurs par régression optimale. La méthode exploite les corrélations des items entre les sous-échantillons pour améliorer l'efficacité des estimateurs, même pour les items étudiés dans tous les sous-échantillons. Elle est également très commode sur le plan opérationnel, car elle produit des estimations pour tous les items au niveau de la population ou du domaine moyennant une simple adaptation du système de calage classique utilisé couramment par les organismes statistiques. Nous présentons ici la méthode en étudiant en détail les plans principaux (c) et (d). Les adaptations à des plans plus généraux sont relativement simples.

À la section 2 et à la section 3, nous décrivons la méthode proposée pour le plan (c). À la section 4, nous décrivons l'application de la méthode au plan (d). À la section 5, nous traitons l'estimation par domaine. À la section 6, nous présentons une étude par simulation. Enfin, à la section 7, nous concluons par une discussion.

Précédent | Suivant

Date de modification :