Le principe de l'estimation dans une enquête probabiliste est que chaque unité de l'échantillon représente non seulement elle-même, mais aussi plusieurs unités de la population de l’enquête. Le poids d’échantillonnage d'une unité fait habituellement référence au nombre moyen d'unités de la population que chaque unité échantillonnée représente. La détermination de ce poids découle directement du plan d’échantillonnage et est une partie importante du processus d'estimation.
Bien que les poids d’échantillonnage puissent être utilisés pour l'estimation, la plupart des enquêtes produisent un ensemble de poids d'estimation en ajustant les poids d’échantillonnage pour améliorer la précision des estimations finales. Les deux raisons les plus courantes de procéder à des ajustements sont de tenir compte de la non-réponse et d'utiliser des données pertinentes provenant d'autres sources. Une fois que les poids d'estimation finaux ont été calculés, ils sont appliqués aux données de l'échantillon afin de calculer les estimations.
Poids d’échantillonnage
La première étape de l'estimation consiste à attribuer un poids à chaque unité échantillonnée. Le poids d’échantillonnage (
), qui est le nombre moyen d'unités de la population que chaque unité échantillonnée représente, est l'inverse de sa probabilité d'inclusion (
) dans l’échantillon.
Si la probabilité d'inclusion est de 1/50, alors chaque unité sélectionnée représente en moyenne 50 unités dans la population et le poids d’échantillonnage est
.
Certains plans d'échantillonnage attribuent les mêmes poids d’échantillonnage à toutes les unités de l'échantillon, tandis que d'autres donnent des poids d’échantillonnage différents aux unités échantillonnées pour diverses raisons, comme l'amélioration de la précision ou la réduction des coûts.
Exemple 1 : Échantillonnage aléatoire simple
Supposons qu'il y ait N =100 élèves de secondaire 5 (ou 12e année) dans une école secondaire. Un échantillon aléatoire simple de taille n =25 élèves est tiré et les élèves sélectionnés sont invités à remplir un questionnaire sur leur plan de carrière.
- La probabilité d'inclusion est :
- Le poids d’échantillonnage est :
Chaque élève sélectionné dans cet échantillon représente quatre élèves de l’école.
Production d'estimations simples
Les estimations peuvent être produites après le calcul des poids, mais seules les estimations simples, telles que les totaux, les moyennes et les proportions, sont couvertes ici.
Estimation d’un total de la population
L'estimation du nombre total (
) d'unités dans la population est calculée en multipliant le poids et la valeur d'intérêt pour chaque unité sélectionnée puis en additionnant toutes les unités de l'échantillon. Pour les variables catégoriques, l'estimation est en fait calculée en additionnant les poids des unités répondantes.
Exemple 2 : Échantillonnage aléatoire simple (suite)
Supposons que parmi les 25 élèves sélectionnés dans l'échantillon, environ 10 ont postulé à des programmes scientifiques. Alors, le nombre total d'étudiants ayant postulé à des programmes scientifiques est de :
Estimation d’une moyenne de la population
L'estimation de la moyenne (
) dans la population est l'estimation de la valeur totale de la variable d’intérêt (
) divisée par l'estimation du nombre total d'unités (
) dans la population.
Exemple 3 : Échantillonnage aléatoire simple (suite)
En général, les étudiants postulent à plus d'un programme d’études postsecondaires. Supposons que parmi les 25 étudiants sélectionnés dans l'échantillon, 5 d'entre eux ne posent leur candidature qu'à un seul programme, 10 d'entre eux posent leur candidature à deux programmes et 10 d'entre eux posent leur candidature à trois programmes. Alors, le nombre moyen de candidatures par étudiant est calculé comme ci-dessous :
- Le nombre total de candidatures est donné par :
- Le nombre total d’étudiants est donné par :
- Le nombre moyen de candidatures par étudiant est donné par :
Estimation d’une proportion de la population
L'estimation de la proportion de la population de l'enquête ayant une caractéristique donnée est assez similaire à l'estimation d'une moyenne de population en termes de formule mathématique. Elle est également calculée comme un quotient entre deux totaux estimés. La principale différence réside dans le numérateur, qui indique l'estimation du nombre total d'unités possédant la caractéristique donnée (
) lors de l'estimation d'une proportion (
). En revanche, le numérateur indique l'estimation de la valeur totale pour les données quantitatives lors de l'estimation d'une moyenne.
Exemple 4 : Échantillonnage aléatoire simple (suite)
Supposons que parmi les 25 élèves sélectionnés dans l'échantillon, il y ait 10 femmes et 15 hommes. Au total, 10 élèves, dont 5 femmes et 5 hommes, s'inscrivent à un programme scientifique. La proportion d'élèves qui s'inscrivent à un programme scientifique par sexe est calculée comme ci-dessous :
- Le nombre total d’étudiants inscrits à un programme scientifique par sexe est donné par :
- Le nombre total d’étudiants par sexe est donné par :
- La proportion d’étudiants appliquant le programme scientifique par sexe est donnée par :
Autres méthodes d'estimation
La méthode d'estimation décrite ci-dessus pour l'échantillonnage aléatoire simple est la méthode d'estimation la plus simple. Il en existe d'autres, plus avancées, qui sont largement appliquées dans de nombreuses enquêtes. La méthode d'estimation la plus appropriée à utiliser est déterminée par quelques facteurs, tels que les caractéristiques à estimer, les différents types de données, la fiabilité, le coût et l'actualité, etc. À Statistique Canada, des systèmes d'estimation spécialisés sont utilisés pour produire des estimations impliquant des procédures compliquées en temps opportun.
Ajustements à la pondérations
Très souvent, les poids d’échantillonnage doivent être ajustés avant l'estimation, et il y a deux types principaux d'ajustement : l'ajustement pour la non-réponse et l'ajustement pour l'information externe.
Ajustement pour la non-réponse
Presque toutes les enquêtes souffrent de non-réponse, ce qui se produit lorsque toutes ou certaines informations clés demandées aux unités échantillonnées ne sont pas disponibles pour certaines raisons, telles que le refus de participer de l'unité échantillonnée, l'absence de contact, l'impossibilité de localiser l'unité ou l'impossibilité d'utiliser les informations obtenues. La façon la plus simple de traiter une telle non-réponse est de l'ignorer, mais ceci peut conduire à des estimations inexactes.
Deux façons courantes de traiter la non-réponse sont d’imputer les réponses manquantes ou d'ajuster les poids d’échantillonnage pour que les unités répondantes représentent à la fois les unités répondantes et non répondantes. Les poids d’échantillonnage des non-répondants sont alors redistribués parmi les répondants.
Ajustement pour l'information externe
Parfois, des informations sur la population de l'enquête sont disponibles à partir d'autres sources, par exemple des informations provenant d'un recensement ou d'un fichier administratif. Ces informations peuvent également être incorporées dans le processus de pondération.
Il y a deux raisons principales pour utiliser des données externes (auxiliaires) lors de l'estimation. La première raison est qu'il est souvent important que les estimations de l'enquête correspondent à des totaux de population connus ou à des estimations provenant d'une autre enquête plus fiable. Par exemple, de nombreuses enquêtes sociales ajustent leurs estimations d'enquête afin d'être cohérentes avec les estimations (répartitions par âge, sexe, etc.) du dernier recensement de la population. Des informations externes peuvent également être obtenues à partir de données administratives ou d'une autre enquête considérée comme plus fiable en raison de la taille plus importante de son échantillon ou parce que ses estimations publiées doivent être respectées.
La deuxième raison est d'améliorer la précision des estimations, pourvu que les valeurs des variables auxiliaires soient collectées pour les unités enquêtées et que des totaux de population ou des estimations soient disponibles pour ces variables à partir d'une autre source fiable.