Théorie et méthodologie des enquêtes par sondage : orientations passées, présentes et futures
Section 2. Premières contributions marquantes : 1920 à 1960

Table des matières

Kiaer (1897) fut sans doute le premier à promouvoir l’échantillonnage (ou ce que l’on appelait à l’époque la méthode représentative) au lieu du dénombrement complet (recensement), quoique la référence la plus ancienne remonte à l’an 1000 avant notre ère. L’objectif de la méthode représentative est d’obtenir un échantillon qui reflète la population finie parente, ce que l’on peut réaliser par échantillonnage équilibré sur des totaux auxiliaires connus, par échantillonnage par choix raisonné ou par échantillonnage aléatoire menant à des probabilités d’inclusion égales. Dès les années 1920, la méthode représentative était d’usage très répandu. L’Institut international de statistique (IIS) a joué un rôle essentiel en créant un comité d’experts chargé de faire rapport sur cette méthode. La contribution de Bowley (1926) au rapport de l’IIS comprend ses travaux fondamentaux sur l’échantillonnage aléatoire stratifié avec répartition proportionnelle menant à des probabilités d’inclusion égales. Bowley (1936) déclare que la [Traduction] « première application de ce principe » d’inférer pour la population à partir d’un échantillon a été l’étude dans Reading en 1912. Bowley a recommandé que la méthode d’échantillonnage pour cette étude soit un échantillonnage systématique d’une liste de maisons. Bowley a appelé cette procédure systématique une [Traduction] « méthode pure d’échantillonnage » et a déclaré [Traduction] « C’est littéralement la méthode d’échantillonnage stratifié ». Bowley donne des exemples où l’échantillonnage systématique a été utilisé après 1912. Bowley (1936) souligne l’importance d’une base complète et des probabilités de sélection égales. Mais c’est Neyman (1934) qui a jeté les bases de l’échantillonnage probabiliste (ou approche fondée sur le plan de sondage). Il a démontré que l’échantillonnage aléatoire stratifié était préférable à l’échantillonnage équilibré (représentatif) tel qu’il était utilisé à l’époque. Il a également présenté le concept d’efficacité et de répartition optimale de l’échantillon, appelée aujourd’hui répartition de Neyman, qui minimise la taille totale de l’échantillon pour une précision spécifiée en relâchant la condition de probabilités d’inclusion égales de Bowley. En fait, Tchuprow (1923) avait obtenu la répartition de Neyman 10 ans plus tôt, dans un article découvert après la parution de celui de Neyman. Neyman (1934) a également montré que, pour des échantillons suffisamment grands, on pouvait obtenir pour la moyenne de population d’une variable d’intérêt des intervalles de confiance tels que la fréquence des erreurs mentionnée dans l’énoncé de confiance sous échantillonnage répété ne dépasse pas la limite établie, « quelles que soient les propriétés inconnues de la population ». Plus récemment, l’échantillonnage équilibré, préconisé au départ par Gini et Galvani, a été peaufiné de manière à intégrer les caractéristiques intéressantes de l’échantillonnage probabiliste ainsi que de l’échantillonnage équilibré sur des totaux auxiliaires connus (Deville et Tillé, 2004). La nouvelle méthode d’échantillonnage équilibré est maintenant appliquée en Europe, surtout en France, pour tirer des échantillons pour les enquêtes auprès des établissements. Une deuxième méthode de sélection probabiliste contrôlée est l’échantillonnage réjectif, introduit par Hájek (1964) comme méthode de contrôle de la taille de l’échantillon dans l’échantillonnage de Poisson. Fuller (2009a) a étendu la procédure de manière à restreindre les échantillons acceptables à l’ensemble pour lequel les estimations de la moyenne des variables auxiliaires sont proches de la moyenne de population.

Au cours des années 1930, alors que s’accélérait la demande de renseignements socioéconomiques, les avantages de l’échantillonnage probabiliste, dont la réalisation d’études de plus grande portée, à moindre coût et plus rapidement que des recensements, ont bientôt été reconnus partout dans le monde. On a donc assisté à une multiplication et à une diversification des enquêtes fondées sur l’échantillonnage probabiliste et couvrant de grandes populations. Accepté presque universellement, l’échantillonnage probabiliste (ou approche fondée sur le plan de sondage) de Neyman est devenu un outil standard pour la recherche empirique en sciences sociales et en statistique officielle. On a également reconnu que la précision d’un estimateur dépendait en grande partie de la taille de l’échantillon et non de la fraction d’échantillonnage. Les années 1940 ont vu des études portant sur les propriétés de l’échantillonnage systématique pour différentes populations, voir Madow et Madow (1944), Cochran (1946), et Yates (1948). Cochran (1977, chapitre 8) présente une excellente discussion sur l’échantillonnage systématique clarifiant pourquoi seuls les estimateurs de variance fondés sur le modèle sont possibles. Voir aussi Bellhouse (1988). Au début, l’élaboration de la théorie de l’échantillonnage était axée sur l’estimation des totaux et des moyennes, et des erreurs d’échantillonnage connexes. Les erreurs non dues à l’échantillonnage, dont la non-réponse, les erreurs de couverture et les erreurs de mesure, étaient en grande partie ignorées en recherche théorique.

Passons maintenant à quelques avancées théoriques importantes concernant l’approche fondée sur le plan de sondage réalisées après Neyman. Dès 1937, Mahalanobis a utilisé des plans d’échantillonnage à plusieurs degrés pour les enquêtes sur les récoltes en Inde. Dans son article classique publié en 1944 (Mahalanobis, 1944), il a formulé rigoureusement les fonctions de coût et de variance permettant une conception efficace des enquêtes. Il a joué un rôle essentiel dans la création du National Sample Survey de l’Inde, la plus grande enquête polyvalente continue effectuée par du personnel à temps plein réalisant des interviews sur place pour les enquêtes socioéconomiques et des mesures physiques pour les enquêtes sur les récoltes. Sukhatme, qui fut l’élève de Neyman, a également contribué de manière novatrice à la conception et à l’analyse des enquêtes agricoles à grande échelle en Inde, en faisant appel à l’échantillonnage à plusieurs degrés stratifié. Les traités classiques sur l’échantillonnage publiés par Cochran (1953), Deming (1950), Hansen, Hurwitz et Madow (1953), Sukhatme (1954) et Yates (1949) ont été utiles aux étudiants ainsi qu’aux praticiens.

Durant la période de 1940 à 1960, sous la direction de Morris Hansen, les statisticiens d’enquête du U.S. Census Bureau ont contribué de manière fondamentale à la théorie et à la méthodologie des enquêtes par sondage. Cette période est considérée comme l’âge d’or du Census Bureau. Hansen et Hurwitz (1943) ont élaboré la théorie de base de l’échantillonnage en grappes à deux degrés stratifié, avec tirage d’une grappe (ou unité primaire d’échantillonnage) dans chaque strate avec probabilité proportionnelle à la taille (PPT), puis sous-échantillonnage de ces grappes à un taux assurant un échantillon autopondéré (probabilités globales de sélection égales). La sélection de grappes avec probabilités inégales peut réduire considérablement la variance en contrôlant la variabilité découlant des tailles de grappe inégales. Une autre contribution importante du U.S. Census Bureau a été l’utilisation de l’échantillonnage rotatif avec renouvellement partiel des ménages pour résoudre le problème du fardeau de réponse dans les enquêtes répétées au cours du temps, comme la Current Population Survey réalisée mensuellement aux États-Unis pour mesurer les taux de chômage. Hansen, Hurwitz, Nisselson et Steinberg (1955) ont établi des estimateurs composites simples, mais efficaces sous échantillonnage rotatif. L’usage de l’échantillonnage rotatif et de l’estimation composite est très répandu dans les enquêtes continues à grande échelle.

Avant les années 1950, l’objectif principal était l’estimation des totaux et des moyennes de population. Au U.S. Census Bureau, Woodruff (1952) a élaboré une approche unifiée de construction d’intervalles de confiance pour les quantiles (en particulier, la médiane) applicable aux plans d’échantillonnage généraux. La procédure demeure l’une des pierres angulaires de l’estimation des quantiles (Francisco et Fuller, 1991).

Après la consolidation de la théorie fondamentale de l’échantillonnage fondé sur le plan de sondage, Hansen, Hurwitz, Marks et Mauldin (1951) et d’autres se sont penchés sur les erreurs de mesure ou de réponse dans les données d’enquêtes. Sous des modèles d’erreur de mesure additifs avec hypothèses de modèle minimales sur les réponses observées traitées comme des variables aléatoires, la variance totale d’un estimateur peut être décomposée en une variance d’échantillonnage, une variance de réponse simple et une variance de réponse corrélée (VRC) attribuable aux intervieweurs.

Mahalanobis (1946) a établi la méthode des sous-échantillons interpénétrants pour évaluer les erreurs d’échantillonnage ainsi que d’intervieweur. En répartissant les sous-échantillons au hasard entre les intervieweurs, il est possible d’estimer la variance totale ainsi que la composante due à l’intervieweur. Cette dernière peut dominer la variance totale quand le nombre d’intervieweurs est faible. En vue d’éliminer la composante VRC due aux intervieweurs, un autodénombrement par la poste a été lancé pour le Recensement des États-Unis de 1960.

La question de la non-réponse aux enquêtes a également été abordée durant les premiers travaux sur l’échantillonnage. Hansen et Hurwitz (1946) ont proposé l’échantillonnage à deux phases qui consiste à prendre contact par la poste avec l’échantillon sélectionné à la première phase, puis à procéder à l’interview sur place d’un sous-échantillon de non-répondants, en supposant que la réponse sera complète ou que la non-réponse sera négligeable à la deuxième phase. Cette méthode a été utilisée récemment au Canada quand l’échantillon pour le questionnaire long à réponse obligatoire du recensement a été remplacé par l’Enquête nationale auprès des ménages à participation volontaire. Après le changement de gouvernement en 2015, le premier ministre du Canada a rétabli le questionnaire long du Recensement. L’échantillonnage à deux phases continuera d’être utilisé, mais dans une moindre mesure. La méthode d’échantillonnage à deux phases de Hansen-Hurwitz a aussi été utilisée dans d’autres enquêtes incluant l’American Community Survey.

Une attention particulière a aussi été accordée aux inférences pour des sous-populations non planifiées (appelées domaines), telles que les groupes âge-sexe à l’intérieur d’un État. Hartley (1959) et Durbin (1958) ont élaboré une théorie unifiée pour l’estimation de domaines applicable à des plans de sondage généraux et ne nécessitant que des formules existantes pour le calcul des totaux et des moyennes de population.

Durant cette première période, la théorie de l’échantillonnage a été établie en majeure partie par des praticiens de la statistique officielle, tandis que les chercheurs universitaires, surtout aux États-Unis, accordaient peu d’attention à l’échantillonnage. Faisait exception la Iowa State University, où le corps professoral a joué un rôle de chef de file dès le départ sous la direction de Cochran, Jessen et Hartley. Une autre institution qui a contribué très tôt à la pratique des enquêtes et à la recherche sur ces derniers est le Survey Research Center de l’Université du Michigan créé en 1947 et dont Leslie Kish fut un des premiers membres.

Au cours des années 1950, des cadres théoriques formels pour l’inférence fondée sur le plan de sondage pour des totaux et des moyennes ont été proposés en considérant les données d’échantillon comme un ensemble d’étiquettes d’échantillon groupé avec les variables d’intérêt associées. Horvitz et Thompson (1952) ont dérivé l’estimateur bien connu dans lequel la pondération est inversement proportionnelle à la probabilité d’inclusion. Narain (1951) a également proposé cet estimateur. Godambe (1955) a élaboré une classe générale d’estimateurs linéaires en permettant que le poids de sondage d’une unité dépende de l’étiquette de celle-ci, ainsi que des étiquettes des autres unités dans l’échantillon. Il a ensuite montré que le meilleur estimateur linéaire sans biais n’existe pas dans cette classe générale, même sous échantillonnage aléatoire simple.

ISSN : 1712-5685

Politique de rédaction

Techniques d’enquête publie des articles sur les divers aspects des méthodes statistiques qui intéressent un organisme statistique comme, par exemple, les problèmes de conception découlant de contraintes d’ordre pratique, l’utilisation de différentes sources de données et de méthodes de collecte, les erreurs dans les enquêtes, l’évaluation des enquêtes, la recherche sur les méthodes d’enquête, l’analyse des séries chronologiques, la désaisonnalisation, les études démographiques, l’intégration de données statistiques, les méthodes d’estimation et d’analyse de données et le développement de systèmes généralisés. Une importance particulière est accordée à l’élaboration et à l’évaluation de méthodes qui ont été utilisées pour la collecte de données ou appliquées à des données réelles. Tous les articles seront soumis à une critique, mais les auteurs demeurent responsables du contenu de leur texte et les opinions émises dans la revue ne sont pas nécessairement celles du comité de rédaction ni de Statistique Canada.

Présentation de textes pour la revue

Techniques d’enquête est publiée en version électronique deux fois l’an. Les auteurs désirant faire paraître un article sont invités à le faire parvenir en français ou en anglais en format électronique et préférablement en Word au rédacteur en chef, (statcan.smj-rte.statcan@canada.ca, Statistique Canada, 150 Promenade du Pré Tunney, Ottawa, (Ontario), Canada, K1A 0T6). Pour les instructions sur le format, veuillez consulter les directives présentées dans la revue ou sur le site web (www.statcan.gc.ca/Techniquesdenquete).

Note de reconnaissance

Le succès du système statistique du Canada repose sur un partenariat bien établi entre Statistique Canada et la population, les entreprises, les administrations canadiennes et les autres organismes. Sans cette collaboration et cette bonne volonté, il serait impossible de produire des statistiques précises et actuelles.

Normes de service à la clientèle

Statistique Canada s'engage à fournir à ses clients des services rapides, fiables et courtois. À cet égard, notre organisme s'est doté de normes de service à la clientèle qui doivent être observées par les employés lorsqu'ils offrent des services à la clientèle.

Droit d'auteur

Publication autorisée par le ministre responsable de Statistique Canada.

L'utilisation de la présente publication est assujettie aux modalités de l'Entente de licence ouverte de Statistique Canada.

N° 12-001-X au catalogue

Périodicité : Semi-annuel

Ottawa

Date de modification :: 2017-12-21

Sélection de la langue

Recherche et menus

Recherche

Théorie et méthodologie des enquêtes par sondage : orientations passées, présentes et futures
Section 2. Premières contributions marquantes : 1920 à 1960

Théorie et méthodologie des enquêtes par sondage : orientations passées, présentes et futures Section 2. Premières contributions marquantes : 1920 à 1960

Politique de rédaction

Présentation de textes pour la revue

Note de reconnaissance

Normes de service à la clientèle

Droit d'auteur

Théorie et méthodologie des enquêtes par sondage : orientations passées, présentes et futures
Section 2. Premières contributions marquantes : 1920 à 1960