Théorie et méthodologie des enquêtes par sondage : orientations passées, présentes et futures
Section 2. Premières contributions marquantes : 1920 à 1960

Kiaer (1897) fut sans doute le premier à promouvoir l’échantillonnage (ou ce que l’on appelait à l’époque la méthode représentative) au lieu du dénombrement complet (recensement), quoique la référence la plus ancienne remonte à l’an 1000 avant notre ère. L’objectif de la méthode représentative est d’obtenir un échantillon qui reflète la population finie parente, ce que l’on peut réaliser par échantillonnage équilibré sur des totaux auxiliaires connus, par échantillonnage par choix raisonné ou par échantillonnage aléatoire menant à des probabilités d’inclusion égales. Dès les années 1920, la méthode représentative était d’usage très répandu. L’Institut international de statistique (IIS) a joué un rôle essentiel en créant un comité d’experts chargé de faire rapport sur cette méthode. La contribution de Bowley (1926) au rapport de l’IIS comprend ses travaux fondamentaux sur l’échantillonnage aléatoire stratifié avec répartition proportionnelle menant à des probabilités d’inclusion égales. Bowley (1936) déclare que la [Traduction] « première application de ce principe » d’inférer pour la population à partir d’un échantillon a été l’étude dans Reading en 1912. Bowley a recommandé que la méthode d’échantillonnage pour cette étude soit un échantillonnage systématique d’une liste de maisons. Bowley a appelé cette procédure systématique une [Traduction] « méthode pure d’échantillonnage » et a déclaré [Traduction] « C’est littéralement la méthode d’échantillonnage stratifié ». Bowley donne des exemples où l’échantillonnage systématique a été utilisé après 1912. Bowley (1936) souligne l’importance d’une base complète et des probabilités de sélection égales. Mais c’est Neyman (1934) qui a jeté les bases de l’échantillonnage probabiliste (ou approche fondée sur le plan de sondage). Il a démontré que l’échantillonnage aléatoire stratifié était préférable à l’échantillonnage équilibré (représentatif) tel qu’il était utilisé à l’époque. Il a également présenté le concept d’efficacité et de répartition optimale de l’échantillon, appelée aujourd’hui répartition de Neyman, qui minimise la taille totale de l’échantillon pour une précision spécifiée en relâchant la condition de probabilités d’inclusion égales de Bowley. En fait, Tchuprow (1923) avait obtenu la répartition de Neyman 10 ans plus tôt, dans un article découvert après la parution de celui de Neyman. Neyman (1934) a également montré que, pour des échantillons suffisamment grands, on pouvait obtenir pour la moyenne de population d’une variable d’intérêt des intervalles de confiance tels que la fréquence des erreurs mentionnée dans l’énoncé de confiance sous échantillonnage répété ne dépasse pas la limite établie, « quelles que soient les propriétés inconnues de la population ». Plus récemment, l’échantillonnage équilibré, préconisé au départ par Gini et Galvani, a été peaufiné de manière à intégrer les caractéristiques intéressantes de l’échantillonnage probabiliste ainsi que de l’échantillonnage équilibré sur des totaux auxiliaires connus (Deville et Tillé, 2004). La nouvelle méthode d’échantillonnage équilibré est maintenant appliquée en Europe, surtout en France, pour tirer des échantillons pour les enquêtes auprès des établissements. Une deuxième méthode de sélection probabiliste contrôlée est l’échantillonnage réjectif, introduit par Hájek (1964) comme méthode de contrôle de la taille de l’échantillon dans l’échantillonnage de Poisson. Fuller (2009a) a étendu la procédure de manière à restreindre les échantillons acceptables à l’ensemble pour lequel les estimations de la moyenne des variables auxiliaires sont proches de la moyenne de population.

Au cours des années 1930, alors que s’accélérait la demande de renseignements socioéconomiques, les avantages de l’échantillonnage probabiliste, dont la réalisation d’études de plus grande portée, à moindre coût et plus rapidement que des recensements, ont bientôt été reconnus partout dans le monde. On a donc assisté à une multiplication et à une diversification des enquêtes fondées sur l’échantillonnage probabiliste et couvrant de grandes populations. Accepté presque universellement, l’échantillonnage probabiliste (ou approche fondée sur le plan de sondage) de Neyman est devenu un outil standard pour la recherche empirique en sciences sociales et en statistique officielle. On a également reconnu que la précision d’un estimateur dépendait en grande partie de la taille de l’échantillon et non de la fraction d’échantillonnage. Les années 1940 ont vu des études portant sur les propriétés de l’échantillonnage systématique pour différentes populations, voir Madow et Madow (1944), Cochran (1946), et Yates (1948). Cochran (1977, chapitre 8) présente une excellente discussion sur l’échantillonnage systématique clarifiant pourquoi seuls les estimateurs de variance fondés sur le modèle sont possibles. Voir aussi Bellhouse (1988). Au début, l’élaboration de la théorie de l’échantillonnage était axée sur l’estimation des totaux et des moyennes, et des erreurs d’échantillonnage connexes. Les erreurs non dues à l’échantillonnage, dont la non-réponse, les erreurs de couverture et les erreurs de mesure, étaient en grande partie ignorées en recherche théorique.

Passons maintenant à quelques avancées théoriques importantes concernant l’approche fondée sur le plan de sondage réalisées après Neyman. Dès 1937, Mahalanobis a utilisé des plans d’échantillonnage à plusieurs degrés pour les enquêtes sur les récoltes en Inde. Dans son article classique publié en 1944 (Mahalanobis, 1944), il a formulé rigoureusement les fonctions de coût et de variance permettant une conception efficace des enquêtes. Il a joué un rôle essentiel dans la création du National Sample Survey de l’Inde, la plus grande enquête polyvalente continue effectuée par du personnel à temps plein réalisant des interviews sur place pour les enquêtes socioéconomiques et des mesures physiques pour les enquêtes sur les récoltes. Sukhatme, qui fut l’élève de Neyman, a également contribué de manière novatrice à la conception et à l’analyse des enquêtes agricoles à grande échelle en Inde, en faisant appel à l’échantillonnage à plusieurs degrés stratifié. Les traités classiques sur l’échantillonnage publiés par Cochran (1953), Deming (1950), Hansen, Hurwitz et Madow (1953), Sukhatme (1954) et Yates (1949) ont été utiles aux étudiants ainsi qu’aux praticiens.

Durant la période de 1940 à 1960, sous la direction de Morris Hansen, les statisticiens d’enquête du U.S. Census Bureau ont contribué de manière fondamentale à la théorie et à la méthodologie des enquêtes par sondage. Cette période est considérée comme l’âge d’or du Census Bureau. Hansen et Hurwitz (1943) ont élaboré la théorie de base de l’échantillonnage en grappes à deux degrés stratifié, avec tirage d’une grappe (ou unité primaire d’échantillonnage) dans chaque strate avec probabilité proportionnelle à la taille (PPT), puis sous-échantillonnage de ces grappes à un taux assurant un échantillon autopondéré (probabilités globales de sélection égales). La sélection de grappes avec probabilités inégales peut réduire considérablement la variance en contrôlant la variabilité découlant des tailles de grappe inégales. Une autre contribution importante du U.S. Census Bureau a été l’utilisation de l’échantillonnage rotatif avec renouvellement partiel des ménages pour résoudre le problème du fardeau de réponse dans les enquêtes répétées au cours du temps, comme la Current Population Survey réalisée mensuellement aux États-Unis pour mesurer les taux de chômage. Hansen, Hurwitz, Nisselson et Steinberg (1955) ont établi des estimateurs composites simples, mais efficaces sous échantillonnage rotatif. L’usage de l’échantillonnage rotatif et de l’estimation composite est très répandu dans les enquêtes continues à grande échelle.

Avant les années 1950, l’objectif principal était l’estimation des totaux et des moyennes de population. Au U.S. Census Bureau, Woodruff (1952) a élaboré une approche unifiée de construction d’intervalles de confiance pour les quantiles (en particulier, la médiane) applicable aux plans d’échantillonnage généraux. La procédure demeure l’une des pierres angulaires de l’estimation des quantiles (Francisco et Fuller, 1991).

Après la consolidation de la théorie fondamentale de l’échantillonnage fondé sur le plan de sondage, Hansen, Hurwitz, Marks et Mauldin (1951) et d’autres se sont penchés sur les erreurs de mesure ou de réponse dans les données d’enquêtes. Sous des modèles d’erreur de mesure additifs avec hypothèses de modèle minimales sur les réponses observées traitées comme des variables aléatoires, la variance totale d’un estimateur peut être décomposée en une variance d’échantillonnage, une variance de réponse simple et une variance de réponse corrélée (VRC) attribuable aux intervieweurs.

Mahalanobis (1946) a établi la méthode des sous-échantillons interpénétrants pour évaluer les erreurs d’échantillonnage ainsi que d’intervieweur. En répartissant les sous-échantillons au hasard entre les intervieweurs, il est possible d’estimer la variance totale ainsi que la composante due à l’intervieweur. Cette dernière peut dominer la variance totale quand le nombre d’intervieweurs est faible. En vue d’éliminer la composante VRC due aux intervieweurs, un autodénombrement par la poste a été lancé pour le Recensement des États-Unis de 1960.

La question de la non-réponse aux enquêtes a également été abordée durant les premiers travaux sur l’échantillonnage. Hansen et Hurwitz (1946) ont proposé l’échantillonnage à deux phases qui consiste à prendre contact par la poste avec l’échantillon sélectionné à la première phase, puis à procéder à l’interview sur place d’un sous-échantillon de non-répondants, en supposant que la réponse sera complète ou que la non-réponse sera négligeable à la deuxième phase. Cette méthode a été utilisée récemment au Canada quand l’échantillon pour le questionnaire long à réponse obligatoire du recensement a été remplacé par l’Enquête nationale auprès des ménages à participation volontaire. Après le changement de gouvernement en 2015, le premier ministre du Canada a rétabli le questionnaire long du Recensement. L’échantillonnage à deux phases continuera d’être utilisé, mais dans une moindre mesure. La méthode d’échantillonnage à deux phases de Hansen-Hurwitz a aussi été utilisée dans d’autres enquêtes incluant l’American Community Survey.

Une attention particulière a aussi été accordée aux inférences pour des sous-populations non planifiées (appelées domaines), telles que les groupes âge-sexe à l’intérieur d’un État. Hartley (1959) et Durbin (1958) ont élaboré une théorie unifiée pour l’estimation de domaines applicable à des plans de sondage généraux et ne nécessitant que des formules existantes pour le calcul des totaux et des moyennes de population.

Durant cette première période, la théorie de l’échantillonnage a été établie en majeure partie par des praticiens de la statistique officielle, tandis que les chercheurs universitaires, surtout aux États-Unis, accordaient peu d’attention à l’échantillonnage. Faisait exception la Iowa State University, où le corps professoral a joué un rôle de chef de file dès le départ sous la direction de Cochran, Jessen et Hartley. Une autre institution qui a contribué très tôt à la pratique des enquêtes et à la recherche sur ces derniers est le Survey Research Center de l’Université du Michigan créé en 1947 et dont Leslie Kish fut un des premiers membres.

Au cours des années 1950, des cadres théoriques formels pour l’inférence fondée sur le plan de sondage pour des totaux et des moyennes ont été proposés en considérant les données d’échantillon comme un ensemble d’étiquettes d’échantillon groupé avec les variables d’intérêt associées. Horvitz et Thompson (1952) ont dérivé l’estimateur bien connu dans lequel la pondération est inversement proportionnelle à la probabilité d’inclusion. Narain (1951) a également proposé cet estimateur. Godambe (1955) a élaboré une classe générale d’estimateurs linéaires en permettant que le poids de sondage d’une unité dépende de l’étiquette de celle-ci, ainsi que des étiquettes des autres unités dans l’échantillon. Il a ensuite montré que le meilleur estimateur linéaire sans biais n’existe pas dans cette classe générale, même sous échantillonnage aléatoire simple.


Signaler un problème sur cette page

Quelque chose ne fonctionne pas? L'information n'est plus à jour? Vous ne trouvez pas ce que vous cherchez?

S'il vous plaît contactez-nous et nous informer comment nous pouvons vous aider.

Avis de confidentialité

Date de modification :